2024-12-26_DeepSeek-V3 正式发布_DeepSeek-报告文献-报告文献-203060双碳文库

我的文库

首页双碳基础知识碳达峰碳中和其他报告文献2024-12-26_DeepSeek-V3 正式发布_DeepSeek

admin

文档

11740

关注

好评

 关注

 主页

PDF

2024-12-26_DeepSeek-V3 正式发布_DeepSeek

 阅读 595  下载 568  大小 1.76M  总页数 5 页 2025-02-13 分享

价格：¥ 9.90

下载文档加入VIP-更优惠

文档评论 收藏文档 违规举报 用手机查看 分享赚 ¥4.95

热门文档

2025-03-25 17:34:29 【推荐】2025年全球人工智能趋势报告：关键法律问题-英文版-28页
2023-10-28 08:02:39 一种液冷一体储能电池管理系统的设计_潘明俊
2024-02-04 09:01:48 2023年各省市双碳政策汇总
2024-05-16 17:07:11 【Excel计算表】工商业储能峰谷套利模型
2024-04-15 10:14:31 IRENA-推进基于可再生能源的清洁烹饪解决方案：关键信息和成果（英）-2024.3-33页
2023-10-28 07:56:41 液冷将成储能装置核心冷却方式
2024-02-03 14:35:00 太阳能光伏光热建筑一体化（BIPV_T）研究新进展_王君
2024-02-07 12:09:10 ED_ESRS_E4
2024-05-16 17:18:12 【PPT】中储国能张栩：压缩空气储能发展现状及未来展望
2024-05-24 15:35:05 203060双碳文库更新文件240524
2023-11-10 08:32:58 世界银行-乌兹别克斯坦的气候变化与残疾人包容（英）-2023.10-39页
2024-06-08 14:51:19 产品碳足迹量化方法钢铁（征求意见稿）

下载文档

/ 5

 全屏查看

2024-12-26_DeepSeek-V3 正式发布_DeepSeek



还有 5 页未读，您可以继续阅读或下载文档

下载文档继续在线阅读

下载提示文本预览常见问题

1、本文档共计 5 页，下载后文档不带水印，支持完整阅读内容或进行编辑。
2、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
4、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

5、有任何问题，文件需求请联系WX：baomafenxiang520

DeepSeek-V3正式发布原创深度求索DeepSeek202412-2619:1748今天，我们全新系列模型DeepSeek-V3首个版本上线并同步开源。登录官网chat.deepseek.com即可与最新版V3模型对话。API服务已同步更新，接口配置无需改动。当前版本的DeepSeek-V3暂不支持多模态输入输出。性能对齐海外领军闭源模型DeepSeek-.V3为自研McE模型，671B参数，激活37B,在14.8 T token上进行了预训练。论文链接：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek V3.pdfDeepSeek-V3多项评测成绩超越了Qwe2.5-2B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT4o以及Chude-3.5 Sonnet不分伯仲。DeepSeek-V3Qwen2.5-72B-InstGPT4o-0513DeepSeek-V2.5Llama-3.1-405B-InstClaude-3.5-Sonnet-102210090.28075.978.078.365.06059.151.649.05149942.04039.223.323.33.62262324.520.32016.00MMLU-ProGPQA-DiamondMATH 500AIME 2024CodeforcesSWE-bench Verified(EM)·百科知识：DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著提升，·长文本：长文本测评方面，在DROP、FRAMES和LongBench v2上，DeepSeek-V3平均表现超越其他模型。·代码：DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非ol类模型，并在工程类代码场景·数学：在美国数学竞赛(AIME2024MATH)和全国高中数学联赛(CNMO2024)上，DeepSeek-V3大幅超过了所有开源闭源模型。·中文能力：DeepSeek-V3与Qwe2.5-2B在教有类测评C-Eval和代词消歧等评测集上表现相近，但在事实知识C-SimpleQA上更为领先。DeepSeek-Qwen2.5Llama3.1Claude-3.5-GPT-4o测试集V372B-Inst.405B-Inst.Sonnet-10220513模型架构MoEDenseDense#激活参数37B72B405B#总参数671B72B405BMMLU (EM)88.585.388.688.387.2MMLU-Redux(EM)89.185.686.288.988MMLU-Pro (EM)75.971.673.37872.6DROP(3-shot F1)91.676.788.788.383.7英文IF-Eval (Prompt Strict)86.184.18686.584.3GPQA-Diamond (Pass@1)59.14951.16549.9SimpleQA(Correct)24.99.117.128.438.2FRAMES (Acc.)73.369.87072.580.5LongBench v2 (Acc.)48.739.436.14148.1HumanEval-Mul (Pass@1)82.677.377.281.780.5LiveCodeBench(Pass@1-COT)40.531.128.436.333.4LiveCodeBench (Pass@1)37.628.730.132.834.2代码Codeforces(Percentile)51.624.825.320.323.6SWE Verified (Resolved)4223.824.550.838.8Aider-Edit (Acc.)79.765.463.984.272.9Aider-Polyglot (Acc.)49.67.65.845.316AIME 2024 (Pass@1)39.223.323.3169.3数学MATH-500 (EM)90.28073.878.374.6CNMO 2024(Pass@1)43.215.96.813.110.8CLUEWSC (EM)90.991.484.785.487.9中文C-Eval(EM)86.586.161.576.776C-SimpleQA(Correct)64.148.450.451.359.3生成速度提升至3倍通过算法和工程上的创新，DeepSeek-V3的生成吐字速度从20TPS大幅提高至60TPS,相比V2.5模型实现了3倍的提升，为用户带来更加迅速流畅的使用体验。