DeepSeek再发新版,全面碾压GPT,对标Gemini3.0Pro

刚刚,DeepSeek完成模型两连发。实验版DeepSeek-V3.2-Exp发布两个月后,正式版终于熬出来了↓DeepSeek-V3.2:兼顾推理能力和输出长度的性能平衡版,适用于问答、通用Agent等场景。对标GPT-5,略低于Gemini3.0Pro。DeepSeek-V3.2-Speciale:长思考增强版,还有极强的数学能力,指令更顺、数学证明和逻辑验证能力强,性能对标Gemini3.0Pro,碾压GPT5.0,参考图1。该版本主要有以下技术创新点↓(以下基于最新技术报告整理)
1. 核心突破:既要马儿跑,又让马吃草为了解决长文本处理慢、算力消耗大的问题,团队引入了DeepSeek 稀疏注意力 (DSA)。结果就是推理速度飙升,性能不下降,成本暴降。关于DSA,我们以前做过解读导致DeepSeek价格暴降,「稀疏注意力机制」,到底是个啥?。
2. 变强秘籍:强化学习与合成数据DeepSeek-V3.2之所以能变得更“聪明”,主要归功于后训练阶段的策略升级↓2.1 下血本搞强化学习: 建立了可扩展的强化学习框架,大幅增加了后训练阶段的算力投入(超过了预训练成本的 10%);2.2 海量合成数据: 为了让模型学会使用工具(比如写代码、搜网页),团队开发了一套流水线,自动生成了海量的训练数据。例如,通过模拟GitHub 的问题修复来训练代码能力,通过构建虚拟的旅行计划任务来训练通用Agent能力。
----理性分界线----在论文中,DeepSeek团队也很诚实地列出了这一版的不足↓知识广度不够: 因为训练的总计算量不如那些闭源巨头,所以在世界知识的覆盖面上还有差距。有点话痨:为了达到高水平的推理,模型往往需要生成很长的思考过程。好比为了做对一道题,它可能需要写很长的草稿,推理成本相对较高(但已经不错了)。复杂任务仍有差距:在解决极度复杂的任务时,相比最顶尖的闭源模型仍稍逊一筹。总之,这一版更新,可谓诚意满满了,还不赶紧用起来?(注:正式版已经官网可用,Speciale版仅以临时API提供,不知道第三方MaaS能不能快速上线呢?)
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。
