DeepSeek V4

DeepSeek V4 是深度求索（DeepSeek）于 2026 年 4 月发布的第四代开源大语言模型系列，采用混合专家（MoE）架构，包含 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个主要变体[^c1]。该系列在架构层面进行了彻底重构，放弃了 V3 系列的 685B 参数基底，引入了全新的混合注意力机制[^c2]，标配百万 token 上下文窗口，采用 MIT 开源许可协议发布。V4 的发布距离 V3 间隔 484 天，训练数据规模从 V3 的 14.8 万亿 token 翻倍至约 33 万亿。2026 年 5 月 4 日，DeepSeek 更新了 V4 技术报告，补充了预览版缺失的训练超参数和消融实验，并坦承在 32T-33T token 规模训练中遇到了显著的稳定性挑战[^c7]，同时在报告中公开邀请社区帮助理解两种工程修复方案的理论机制。

V4 最根本的变革是混合注意力机制，将压缩稀疏注意力与高度压缩注意力相结合，在处理百万 token 上下文时 FLOPs 降至 V3.2 的 27%、KV 缓存降至 10%。这一效率突破使得 V4-Flash 的定价低至每百万输出 token 0.28 美元，比 Claude Opus 4.7 便宜 99%。V4 还引入了流形约束超连接（mHC）以解决大规模训练中的信号发散问题，采用 Muon 优化器替代传统 AdamW，并通过批不变性设计原则确保了预训练、后训练和推理之间的比特级完全可重现性。

V4 的后训练完全放弃了传统的混合强化学习，转而使用 On-Policy 蒸馏（OPD）方案——先在数学、代码、Agent 和指令遵循等领域独立训练超过 10 个领域专家模型，再通过全词汇表 logit 蒸馏将能力聚合为统一的 student 模型。分析认为，固定训练流水线正被可编程训练系统取代[^c3]。训练中采用的 Anticipatory Routing 和 SwiGLU Clamping 等稳定化技术在工程上有效，但其理论机制仍是"未解决的开放问题"[^c5]。

V4 的发布也反映了 DeepSeek 从研究机构向商业化实体的转型。公司于同期启动了首轮外部融资，面临核心研究人员流失的挑战。在芯片层面，V4 首次正式适配华为昇腾 950PR 推理芯片，标志国产硬件与前沿大模型的深度协同，但此前 2025 年的昇腾 910C 训练失败是 V4 延迟的重要原因。中国 AI 实验室之间形成了独特的开源飞轮效应：DeepSeek 的 MLA 架构被 Kimi 采用，而 Kimi 的 Muon 优化器被 DeepSeek 用于 V4 训练[^c4]，技术扩散速度明显加快[^c6]。此外，DeepSeek 联合北京大学提出了 Engram 条件记忆模块，作为下一代稀疏模型的第二个稀疏化轴，已在 V4 的 TileKernels 算子库中得到工程实现。V4 在编程和数学基准上已接近甚至超越部分顶尖闭源模型，但在综合能力方面仍被评估落后美国前沿模型约 8 个月。

Connections

[[models/deepseek-v4]] — 模型规格、架构细节和基准测试
[[events/deepseek-v4-release]] — 发布时间线、市场影响和 API 迁移
[[companies/deepseek]] — 深度求索公司的组织发展与融资历程
[[companies/high-flyer]] — 母公司幻方量化
[[people/liang-wenfeng]] — 创始人的战略转型与芯片决策
[[people/guo-daya]] — 核心研究人员的流失
[[concepts/hybrid-attention]] — 混合注意力机制技术细节
[[concepts/muon-optimizer]] — Muon 优化器与训练创新
[[concepts/muon-clip]] — Moonshot AI 开发的 Muon 变体
[[concepts/batch-invariance]] — 批不变性设计原则
[[concepts/on-policy-distillation]] — On-Policy 蒸馏方法
[[concepts/engram]] — 条件记忆模块
[[technologies/deepgemm]] — 自研矩阵运算库
[[technologies/mega-moe]] — 融合 MoE 内核
[[technologies/huawei-ascend-950pr]] — 国产芯片适配
[[technologies/tilekernels]] — 算子库