DeepSeek（大模型）

DeepSeek（杭州深度求索人工智能基础技术研究有限公司）是由知名量化投资公司幻方量化于2023年7月17日创立的人工智能研发企业，由梁文锋带领核心团队，专注于大规模AI模型的基础研究与应用开发。其模型系列以技术创新闻名，通过稀疏激活专家混合架构、低精度训练优化与高效推理等技术，在保证高性能的同时显著降低算力需求，为中国AI自主发展开辟重要技术路径。截至2025年，DeepSeek已发布多个语言、代码、数学及多模态模型，其最新V3.1架构被誉为“迈向Agent（智能体）时代的第一步”。

研发历程可追溯至2008年梁文锋团队在量化交易领域的技术积累。2021年，幻方量化投入10亿元构建“萤火二号”超级计算机，为大模型研发提供算力基础。2023年7月，深度求索正式成立，成为幻方量化旗下全资子公司，专注AI大模型业务。

模型迭代历程

2023年：10月推出DeepSeek-Coder，11月发布DeepSeek-LLM，12月推出3D生成模型DreamCraft3D
2024年：1月正式发布670亿参数DeepSeek LLM；5月开源DeepSeek-V2；9月推出融合技术版本DeepSeek V2.5；11–12月陆续发布首个推理模型R1-Lite及多模态模型VL2
2025年：1月推出对标OpenAI o1的DeepSeek-R1；8月发布V3.1模型，支持128K上下文窗口与100+语言，显著增强Agent能力；9月，亚马逊云科技将DeepSeek-V3.1开放权重模型纳入Bedrock平台

核心技术特点

DeepSeek采用稀疏激活混合专家（MoE）架构，结合多头潜在注意力（MLA）机制以优化计算效率。V3.1版本引入“混合推理架构”，使单一模型可同时运行思考与非思考模式，动态分配算力资源。

在训练优化方面，公司采用激进去重策略提升数据质量，自研HAI-LLM训练框架，集成高效并行与注意力优化技术。V3.1引入UE8M0 FP8精度技术，适配国产AI芯片，降低对英伟达生态的依赖。

推理优化方面，模型通过知识蒸馏、量化压缩与推理路径优化等手段降低推理算力。R1系列实现全透明推理流程，模型思考过程可追踪、可解释，显著增强复杂任务处理能力。

代表产品

DeepSeek-V3.1：2025年8月发布，参数约685B，激活参数37B。在AiderPolyglot多语言编程测试中得分71.6%，超越Claude4Opus；Token效率提升13%，在复杂搜索与专家级测试中表现领先，被视为迈向智能体时代的重要一步。
DeepSeek-R1：2025年1月开源，性能与OpenAI o1相当，采用全透明推理架构，展示完整思考链路，在数学与逻辑问题上表现优异，被誉为“开创性且高性价比的大模型”。
DeepSeek-VL2：2024年12月发布的多模态视觉语言模型，支持图像理解、视觉问答与跨模态推理，采用模块化设计，按任务激活子网络，减少冗余计算。

开源战略与商业模式

DeepSeek采取“开源基础模型 + 商业API服务”双轨策略。自2024年起，公司持续开源多个基础模型，并公开训练细节与技术报告，推动技术透明与社区共建。同时，通过DeepSeek Platform提供商业API，采用阶梯计价。

社会影响与未来展望

DeepSeek的崛起被视为AI领域的“边缘政策”范例，通过技术路径创新降低对高端芯片的依赖。其FP8低精度技术路线为中国AI产业提供新发展思路，在中美技术竞争背景下具有战略意义。技术媒体评价其“通过开源策略重新定义AI产业规则”，其价格策略也推动国际厂商调整全球定价，促进AI普惠化。

展望未来，DeepSeek计划持续强化Agent能力，构建“模型即操作系统”的生态体系。据技术路线图，2026年将推出具备具身智能特性的新一代模型，深化与国产芯片企业合作，打造软硬协同的AI生态，逐步摆脱外部技术制约。

截至2025年11月，DeepSeek已成为中国最具影响力的大模型系列之一，其技术路径推动全球AI产业从“参数竞赛”迈向“效率革命”，对行业格局带来深远影响。