2025-01-30_「转」“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？_华尔街见闻-报告文献-报告文献-203060双碳文库

我的文库

首页双碳基础知识碳达峰碳中和其他报告文献2025-01-30_「转」“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？_华尔街见闻

admin

文档

6309

关注

好评

 关注

 主页

PDF

2025-01-30_「转」“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？_华尔街见闻

 阅读 708  下载 433  大小 2.74M  总页数 8 页 2025-02-15 分享

价格：¥ 9.90

下载文档加入VIP

文档评论 收藏文档 违规举报 用手机查看 分享文档

热门文档

2023-10-28 08:02:39 一种液冷一体储能电池管理系统的设计_潘明俊
2024-02-04 09:01:48 2023年各省市双碳政策汇总
2023-10-28 07:56:41 液冷将成储能装置核心冷却方式
2024-05-16 17:07:11 【Excel计算表】工商业储能峰谷套利模型
2024-02-03 14:35:00 太阳能光伏光热建筑一体化（BIPV_T）研究新进展_王君
2025-03-25 17:34:29 【推荐】2025年全球人工智能趋势报告：关键法律问题-英文版-28页
2024-06-08 14:51:19 产品碳足迹量化方法钢铁（征求意见稿）
2024-05-24 15:35:05 203060双碳文库更新文件240524
2024-05-28 12:53:37 电化学储能电站的安全与高效设计
2023-11-02 14:34:29 讲义13丨中国独立焦化企业温室气体核算方法与报告指南
2024-05-16 17:18:12 【PPT】中储国能张栩：压缩空气储能发展现状及未来展望
2023-11-10 08:32:58 世界银行-乌兹别克斯坦的气候变化与残疾人包容（英）-2023.10-39页

下载文档

/ 8

 全屏查看

2025-01-30_「转」“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？_华尔街见闻



还有 8 页未读，您可以继续阅读或下载文档

下载文档继续在线阅读

下载提示文本预览常见问题

1、本文档共计 8 页，下载后文档不带水印，支持完整阅读内容或进行编辑。
2、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
4、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

5、有任何问题，文件需求请联系WX：baomafenxiang520

“DeepSeek甚至绕过了CUDA”,论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？关注前沿科技华尔街见闻2025-01-30205324转自公众号：量子位htp://mp.weixn.qq.com/s?bi-MzlzNjcl NzUzMw=&mid-2247775209&dx=1&sn-0d36e2f770c815086947ddlbcb77bbel来源：量子位(ID:QbA)作者梦晨西风英伟达刚刚从DeepSeek-R1引发的4万亿元暴跌中缓过劲来，又面临新的压力？硬件媒体Tom's Hardware带来开年最新热议：DeepSeek甚至绕过了CUDA使用更底层的编程语言做优化。Tom's Hardware@tomshardware·6小时DeepSeek's Al breakthrough bypasses industry-standard CUDA,usesassembly-like PTX programming insteadDeepSeek的AI突破绕过行业标准CUDA,改用类似汇编的PTX编程DeepSeek's Al breakthrough bypasses industry-standard CUDA,uses assemb...来自tomshardware,comt7119439这一次是DeepSeek-V3论文中的更多细节，被人挖掘出来。来自Mirae Asset Securities Research(韩国未来资产证券)的分析称，V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。在使用英伟达的H800cPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器(S临)中的20个修改成负责服务器间的通信，而不是计算任务。变相绕过了硬件对通信速度的限制。selects only 8 routed experts in practice,it can scale up this number to a maximum of 13 experts(4 nodes x 3.2 experts/node)while preserving the same communication cost.Overall,undersuch a communication strategy,only 20 SMs are sufficient to fully utilize the bandwidths of IBand NVLink.In detail,we employ the warp specialization technique(Bauer et al.,2014)and partition20 SMs into 10 communication channels.During the dispatching process,(1)IB sending,(2)IB-to-NVLink forwarding,and(3)NVLink receiving are handled by respective warps.Thenumber of warps allocated to each communication task is dynamically adjusted according to theactual workload across all SMs.Similarly,during the combining process,(1)NVLink sending,(2)NVLink-to-IB forwarding and accumulation,and(3)IB receiving and accumulation are alsohandled by dynamically adjusted warps.In addition,both dispatching and combining kernelsoverlap with the computation stream,so we also consider their impact on other SM computationkernels.Specifically,we employ customized PTX(Parallel Thread Execution)instructions andauto-tune the communication chunk size,which significantly reduces the use of the L2 cacheand the interference to other SMs.A DeepSeek-V3 Technical Report这种操作是用英伟达的PTX(Parallel Thread Execution)语言实现的，而不是CUDA。PTX在接近汇编语言的层级运行，允许进行细粒度的优化，如寄存器分配和Thread/Warp级别的调整。这种编程非常复杂且难以维护，所以行业通用的做法是使用CUDA这样的高级编程语言。换句话说，他们把优化做到了极致。有网友表示，如果有一群人嫌CUDA太慢而使用PTX,那一定是前量化交易员。Michael Bacarella@mbacarella·1月28日Today's Stratechery on DeepSeek is amazing.If there's any group of people in the world that are degenerate enough tosay"CUDA too slow!write PTX!"'it's former quant traders公众号·量字位一位亚马逊工程师提出灵魂质问：CUD是否还是护城河？这种顶尖实验室可以有效利用任何GPU。