DeepSeek-V3.2正式发布:推理能力全球领先,思考融入工具调用开启智能新纪元

简介:DeepSeek正式发布V3.2和V3.2-Speciale模型,在推理能力上达到全球领先水平,首次实现思考模式下的工具调用,大幅提升智能体任务表现,模型已全面开源并提供API服务。

今天,DeepSeek团队正式推出了两个全新版本模型——DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale,标志着其在大型语言模型研发道路上迈出了重要一步。此次发布基于两个月前实验性版本V3.2-Exp的成功验证,其采用的DSA稀疏注意力机制在广泛用户测试中表现稳定,未出现显著弱于前代V3.1-Terminus的场景,为正式版的推出奠定了坚实的技术基础。

双模型战略:平衡日常使用与极致推理

DeepSeek-V3.2定位为平衡推理能力与输出长度的日常使用模型,特别适合问答场景和通用Agent任务。在公开的推理类基准测试中,V3.2表现突出,达到了GPT-5同等水平,仅略低于Gemini-3.0-Pro。与同类模型相比,V3.2在保持高性能的同时大幅降低了输出长度,显著减少了计算开销与用户等待时间。

DeepSeek-V3.2-Speciale则代表了开源模型推理能力的极致探索。作为V3.2的长思考增强版,该模型融合了DeepSeek-Math-V2的定理证明能力,在指令跟随、数学证明与逻辑验证方面表现出色。其性能在主流推理基准测试上媲美Gemini-3.0-Pro,更在国际顶级竞赛中斩获多项金牌——包括IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025,其中ICPC成绩达到人类选手第二名水平,展现了非凡的推理实力。

需要说明的是,Speciale版本在高度复杂任务上表现卓越,但消耗的Tokens也显著更多,成本较高。目前该版本仅供研究使用,暂未针对日常对话与写作进行专项优化。

革命性突破:思考融入工具调用

DeepSeek-V3.2的一个重要创新在于首次实现了思考模式下的工具调用。与过往版本在思考模式下无法调用工具的局限不同,V3.2同时支持思考模式与非思考模式的工具使用能力。

团队通过创新的大规模Agent训练数据合成方法,构造了大量“难解答,易验证”的强化学习任务(涵盖1800+环境,85,000+复杂指令),显著提升了模型的泛化能力。如表2所示,DeepSeek-V3.2在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距。

全面开源与API服务升级

两个模型均已全面开源,开发者可通过HuggingFace和ModelScope平台获取:

  • DeepSeek-V3.2:HuggingFace | ModelScope

  • DeepSeek-V3.2-Speciale:HuggingFace | ModelScope

官方网页端、App和API服务已全部更新为正式版DeepSeek-V3.2。同时,为方便社区评测与研究,团队非正式部署了DeepSeek-V3.2-Speciale的临时API服务(支持至北京时间2025年12月15日),API价格保持不变,支持最大128K输出长度。

API新功能:思考模式下的工具调用实践

本次API更新重点支持了思考模式下的工具调用能力。在该模式下,模型能够经过多轮“思考+工具调用”的迭代过程,最终给出更加详尽准确的回答。API用户需在交互过程中回传思维链内容(reasoning_content),并在新问题开始时清除之前的思维链记录。

此外,DeepSeek-V3.2的思考模式还增加了对Claude Code的支持,用户可通过更改模型名或使用快捷键开启思考模式。不过需要注意的是,思考模式尚未充分适配Cline、RooCode等使用非标准工具调用的组件,建议用户在使用此类组件时继续采用非思考模式。

技术报告与未来展望

新模型的详细技术报告已同步发布,全面阐述了DSA稀疏注意力机制的实现原理、训练方法论以及评测结果分析。DeepSeek团队表示,将持续聆听用户反馈,在保证模型性能的同时不断优化使用体验,推动开源大模型生态的繁荣发展。

此次DeepSeek-V3.2系列的发布,不仅在推理能力上达到了新的高度,更在思考与工具调用的融合上实现了重要突破,为智能体应用的进一步发展打开了新的可能性。


DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理

扫一扫在手机打开当前页
文章二维码