DeepSeek开源周，重塑AI基础设施效率-250302-华创证券-15页-券商研报-券商研报-203060双碳文库

我的文库

首页双碳行业研报双碳行业研报券商研报DeepSeek开源周，重塑AI基础设施效率-250302-华创证券-15页

203060资源

文档

1492

关注

好评

 关注

 主页

PDF

DeepSeek开源周，重塑AI基础设施效率-250302-华创证券-15页

 阅读 770  下载 647  大小 2.08M  总页数 15 页 2025-03-18 分享

价格：¥ 9.90

下载文档加入VIP-更优惠

文档评论 收藏文档 违规举报 用手机查看 分享赚 ¥4.95

热门文档

2025-03-25 17:34:29 【推荐】2025年全球人工智能趋势报告：关键法律问题-英文版-28页
2023-10-28 08:02:39 一种液冷一体储能电池管理系统的设计_潘明俊
2024-02-04 09:01:48 2023年各省市双碳政策汇总
2024-05-16 17:07:11 【Excel计算表】工商业储能峰谷套利模型
2024-04-15 10:14:31 IRENA-推进基于可再生能源的清洁烹饪解决方案：关键信息和成果（英）-2024.3-33页
2023-10-28 07:56:41 液冷将成储能装置核心冷却方式
2024-02-03 14:35:00 太阳能光伏光热建筑一体化（BIPV_T）研究新进展_王君
2024-02-07 12:09:10 ED_ESRS_E4
2024-05-16 17:18:12 【PPT】中储国能张栩：压缩空气储能发展现状及未来展望
2024-05-24 15:35:05 203060双碳文库更新文件240524
2023-11-10 08:32:58 世界银行-乌兹别克斯坦的气候变化与残疾人包容（英）-2023.10-39页
2024-06-08 14:51:19 产品碳足迹量化方法钢铁（征求意见稿）

下载文档

/ 15

 全屏查看

DeepSeek开源周，重塑AI基础设施效率-250302-华创证券-15页



还有 15 页未读，您可以继续阅读或下载文档

下载文档继续在线阅读

下载提示文本预览常见问题

1、本文档共计 15 页，下载后文档不带水印，支持完整阅读内容或进行编辑。
2、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
4、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

5、有任何问题，文件需求请联系WX：baomafenxiang520

华创证券HUA CHUANG SECURITIES证券研究报告AI+专题系列，点评（三十）DeepSeek开源周，重塑AI基础设施效率事项：华创证券研究所口2025年2月24日至2025年2月28日，DeepSeek举行为期五天的“开源周”，连续开源五个软件库，旨在以完全透明的方式与全球开发者社区分享其在通用人工智能(AGI)领域的研究进展，五个软件库向业界展示了一套重塑AI基邮箱：wumingyuan@hcyjs,.com础设施效率的全景方案，涵盖底层加速解码、专家并行通信、核心矩阵运算、执业编号：S0360523040001分布式训练的流水线优化、数据处理系统的构建，共同构筑了一个面向大规模联系人：张宇凡AI的高性能基石。评论：行业基本数据口显存的“节流”：FlashMLA是一种专为NVIDIAHopper架构GPU优化的高占比%效注意力解码内核，旨在提升大规模语言模型(LLM)在推理阶段的性能，尤股票家数（只）3360.04其在处理可变长度序列时表现突出，FlashMLA能自行调配计算资源，通过动总市值（亿元）47.487.624.81态资源分配优化显存使用，在H800集群上达到3000GB/s的内存限制性能和流通市值（亿元）40,636.025.17580 TFLOPS的计算限制性能，实现了3倍显存利用率提升。通信的“智能交通系就”：DeepEP是首个用于MoE(混合专家模型)训练和推理的开源EP通信库，它解决了MoE的通信瓶颈，支持优化的全对全通信%6M12M模式，使数据能够在各个节点间高效传输。绝对表现15.9%82.7%45.7%矩阵运算的“编泽器”：DeepGEMM作为矩阵乘法加速库，为V3/RI的训练和相对表现14.0%64.3%32.9%推理提供支持。DeepGEMM采用了DeepSeek-V3中提出的细粒度scaling技2024-03-042025-02-28术，将FP8引入GEMM内核，仅用300行代码就实现了简洁高效的FP8通用矩阵乘法，DeepGEMM支持普通GEMM以及专家混合(MoE)分组GEMM,209%在HopperGPU上最高可达到1350+FP8 TFLOPS(每秒万亿次浮点运算)的计4%算性能，在各种矩阵形状上的性能与专家调优的库相当，甚至在某些情况下更2405优，且安装时无需编译，通过轻量级T模块在运行时编译所有内核。并行训蛛的“指挥：DualPipe和EPLB旨在解决大模型分布式训练中的并行一计算机调度和负载均衡问题。DualPipe是一种用于V3/R1训练中计算与通信重叠的双向管道并行算法，通过实现向前与向后计算通信阶段的双向重叠，将硬件资相关研究报告源利用率提升超30%，减少资源浪费。EPLB是一种针对V3R1的专家并行负《计算机行业周报(20250217-20250221上AI+军载均衡器。基于混合专家(M0E)架构，它通过冗余专家策略复制高负载专家，用：新时代智权争夺赛，重塑战场生态》并结合启发式分配算法优化GPU间的负载分布，减少GPU闲置现象。2025-02.23AI专属的分布式文件系统：3FS是一个专为AI训练和大数据处理设计的高性《计算机行业重大事项点评：A+央企：国资各行能并行分布式文件系统，能实现高速数据访问，提升AI模型训练和推理的效业商业落地提速》2025-02-23率。性能方面，3FS在180节点集群中实现了6.6TBs的聚合读取吞吐量；在《AI+专题系列，点评（二十九上DeepSeek发布最25节点集群的GraySort基准测试中达到3.66 TiB/min的吞吐量；每个客户端新论文：大模型长文本推理革命》节点在KVCache查找时可达到40 +GiB/s的峰值吞吐量，2025-02-19口授责建议：Deepseek代码公布助力应用端加速落地，建议关注以下标的：)办公：金山办公、合合信息、福昕软件、迈富时；2)金融：京北方、宇信科技、天阳科技、神州信息、同花顺、恒生电子、新致软件；3)大模型：科大讯飞、三六零、第四范式；4)工业：中控技术、索辰科技、鼎捷数智；5)端侧/穿戴/玩具：萤石网络、云天励飞、中科创达、汉王科技；6)医疗：润达医疗、卫宁健康、晶泰控股；7)法律：金桥信息、华宇软件、通达海；8)邮箱：彩讯股份；9)创意：万兴科技、美图公司、虹软科技；10)散育：佳发教育、欧玛软件、新致远互联；14)安全：深信服、永信至诚：15)部署：卓易信息、优刻得、星环科技、网宿科技、汉得信息；16)算力：海光信息、寒武纪、景嘉微等。口风险提示：商业化后表现不及预期，用户付费意愿低，行业技术迭代速度较快，证监会审核华创证泰投资咨询业务资格批文号：证监许可(2009)1210号华创证券HUA CHUANG SECURITIES目录一、FlashMLA:显存的“节流间”4二、DeepEP:通信的"智能交通系统”三、DeepGEMM:矩阵运算的“编泽器”7四、DualPipe和EPLB:并行训练的“指挥”五、3FS:AI专属的分布式文件系统…证监会审核华创证春投资咨询业务资格批文号：证监许可(2009)1210号2