首页双碳基础知识碳达峰碳中和其他报告文献DeepSeek-R1 Kimi1.5及类强推理模型开发解读——陈博远
admin

文档

5431

关注

0

好评

0
PDF

DeepSeek-R1 Kimi1.5及类强推理模型开发解读——陈博远

阅读 856 下载 699 大小 7.67M 总页数 77 页 2025-03-15 分享
价格:¥ 9.90
下载文档
/ 77
全屏查看
DeepSeek-R1 Kimi1.5及类强推理模型开发解读——陈博远
还有 77 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 77 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

5、有任何问题,文件需求请联系WX:baomafenxiang520

DeepSeek-R1 Kimi 1.5类强推理模型开发解读陈博远北京大学2022级“通班”主要研究方向:大语言模型对齐与可扩展监督https://cby-pku.github.io/https://pair-lab.com/兼大对齐小组Outline2>DeepSeek-RI开创RL加持下强推理慢思考范式新边界>DeepSeek-R1Zero及RI技术剖析>Pipeline总览\DeepSeek-V3 Base DeepSeek-R1 Zero及Rl细节分析>RL算法的创新:GRPO及其技术细节>DeepSeek-Rl背后的Insights&Takeaways:RL加持下的长度泛化\推理范式的涌现>DeepSeek-R1社会及经济效益>技术对比探时>STaR-based Methods vs..RL-based Methods强推理路径对比(DS-Rl\Kimi-l.5\o-series)>蒸馏vs.强化学习驱动:国内外现有各家技术路线对比分析及Takeaways>PRM&MCTS的作用>从文本模态到多模态>其他讨论:Over-Thinking过度思考等>未来方向分析探讨>模态穿透赋能推理边界拓展:Align-DS-V>合成数据及Test-Time Scaling:突破数据再生产陷阱>强推理下的安全:形式化验证Formal Verification\审计对齐Deliberative Alignment>补充拓展:DeepSeek-V3解读
返回顶部