关灯
护眼
字体:大 中 小
上一章
目录
下一页
很快AI智能体开始自己分解任务、解决任务,最后汇总。
三分钟后,第一版结果出来了。性能接近 68%,但精度偏差太大了。
一个大大的红色FAIL显示在屏幕上。
赵文渊在旁边松了一口气。
这才正常嘛。
他对韩路一说:“韩总你看,这就是我说的难点,做不过来”
韩路一没有回应赵文渊。
他重新打开CUDA的源代码,开了视界。
普通人看代码,看到的是字符。赵文渊看代码,看到的是逻辑。
但视界让韩路一看到的是另一层东西,不只是代码在做什么,还有代码为什么这样做。
每一个设计选择背后的权衡,都像批注一样浮现在代码旁边。
为什么softx没有用最直觉的实现方式,而是拆成了三个阶段?因为直觉实现在长序列上会有数值溢出。
为什么矩阵乘的分块是这个尺寸,不大也不小?因为再大shared ry放不下,再小会产生内存冲突。
这些东西没有写在任何文档里。它们是英伟达的工程师经过无数次实验之后沉淀下来的经验,藏在代码的结构里,只有真正理解硬件的人才能读出来。
赵文渊不是读不懂代码,他只是没办法在几天之内,就把别人几年的工程经验全部提炼出来。
但是视界可以,韩路一可以。
韩路一关掉第一版的提示词,重新输入。
这一次,他没有让智能体自由发挥。
而是把视界看到的东西直接输入进去。
“softx必须使用 online algorith阶段,不要使用 naive softx。当前精度问题出在第二阶段 reduce,局部最大值和指数和更新顺序要保持一致。”
“矩阵乘 tile使用64x64,tile过大 shared ry不够,过小会增加 bank conflict。”
“reduce时按4-stride展开,避免 bank conflict。”
“K/V矩阵按 row-jor缓存在 shared ry,避免跨 bank连续冲突。”
“先保证精度,再做性能优化。”
回车。
智能体又开始勤勤恳恳的劳动了。
五分钟后,一个大大的绿色PASS出现在屏幕上。
赵文渊在旁边眼珠子都快要瞪出来了。
“不是……这怎么回事?”
他不顾韩路一还坐在电脑前,把头凑到屏幕前面,把测试报告从头到尾看了一遍。
精度误差:2.3e-6,远低于1e-5的要求。
性能:N卡实现的83%。
不是70%,是83%。
赵文渊又把生成的代码拉出来,逐行看了一遍。
他越看越沉默。
这段代码根本不是那种“能跑就行”的粗糙实现:softx用的是三阶段online algorithreduce的展开策略干净利落,shared ry的使用几乎没有浪费。
这是一个对底层硬件有深刻理解的人才能写出来的东西。
不,准确地说,是一个对底层硬件有深刻理解的人,才能指导AI写出来的东西。
赵文渊转过头,看着韩路一。
“韩总,你第二次输入的那些提示词softx三阶段、tile 64x64、4-stride展开你怎么知道的?”
韩路一靠在椅背上:“我看了文档。”
“我去,原来你看了文档啊,不早说。”赵文渊先开了个玩笑,然后声音突然拔高了,“我也看了两天文档,跑了十几个测试,我都没找到这个tile尺寸,你看了几分钟就看出来了?”
韩路一没有回答,只是笑了笑。
赵文渊盯着他看了好一会儿,最后像是泄了气一样靠回椅子上。
“行吧。”他说,“我不问了。”
他之前不是没想过用AI来做这些工作,但是AI根本做不了。每次跑出来的结果,不是卡死,就是偏差太大。
怎么韩路一一上手就好用了?
赵文渊现在只想火速删掉发给韩路一的那个共享文档的标题。
韩路一在他眼前,把他觉得不可能的事情做出来了。
如果这个不是偶然呢?
如果scaled_dot_product_attention可以这样做,那其他算子呢?
什么暂无可行性啊?
什么叫“别想了,没戏”啊?
这不是有戏了吗?
他现在非常想让那个前同事过来现场看
本章未完,请点击下一页继续阅读>>『加入书签,方便阅读』
上一章
目录
下一页
天竹小说手机版 - 随时随地畅读精品小说
澜和文学手机站 - 小说阅读更轻便
知暮小说移动端 - 精选免费小说合集
山青小说手机版 - 畅读全网热门小说
月然书院手机版 - 小说迷的移动书架
风缤小说手机端 - 免费追更每一本好书
云初小说手机版 - 精选小说轻松看
寒涟小说手机版 - 小说更新实时推送
明歌小说手机站 - 精彩小说掌上读
清珏小说手机端 - 海量精品小说免费读
澜语小说移动版 - 小说迷的掌中宝
逸华小说手机站 - 热门小说即时更新
天桂小说手机版 - 免费小说随时读
风竹小说手机端 - 精选完本小说推荐
云明小说手机站 - 小说迷必备阅读站
书冉小说手机版 - 精彩小说免费在线
澜山小说移动端 - 精选原创小说合集
寒竹小说手机版 - 免费阅读完本佳作
清蝉小说手机端 - 小说迷的最佳阅读平台
风翎小说手机版 - 精选网络小说在线阅读