DeepSeek V4
DeepSeek V4 是深度求索(DeepSeek)于 2026 年 4 月发布的第四代开源大语言模型系列,采用混合专家(MoE)架构,包含 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个主要变体[^c1]。该系列在架构层面进行了彻底重构,放弃了 V3 系列的 685B 参数基底,引入了全新的混合注意力机制[^c2],标配百万 token 上下文窗口,采用 MIT 开源许可协议发布。V4 的发布距离 V3 间隔 484 天,训练数据规模从 V3 的 14.8 万亿 token 翻倍至约 33 万亿。2026 年 5 月 4 日,DeepSeek 更新了 V4 技术报告,补充了预览版缺失的训练超参数和消融实验,并坦承在 32T-33T token 规模训练中遇到了显著的稳定性挑战[^c7],同时在报告中公开邀请社区帮助理解两种工程修复方案的理论机制。
V4 最根本的变革是混合注意力机制,将压缩稀疏注意力与高度压缩注意力相结合,在处理百万 token 上下文时 FLOPs 降至 V3.2 的 27%、KV 缓存降至 10%。这一效率突破使得 V4-Flash 的定价低至每百万输出 token 0.28 美元,比 Claude Opus 4.7 便宜 99%。V4 还引入了流形约束超连接(mHC)以解决大规模训练中的信号发散问题,采用 Muon 优化器替代传统 AdamW,并通过批不变性设计原则确保了预训练、后训练和推理之间的比特级完全可重现性。
V4 的后训练完全放弃了传统的混合强化学习,转而使用 On-Policy 蒸馏(OPD)方案——先在数学、代码、Agent 和指令遵循等领域独立训练超过 10 个领域专家模型,再通过全词汇表 logit 蒸馏将能力聚合为统一的 student 模型。分析认为,固定训练流水线正被可编程训练系统取代[^c3]。训练中采用的 Anticipatory Routing 和 SwiGLU Clamping 等稳定化技术在工程上有效,但其理论机制仍是"未解决的开放问题"[^c5]。
V4 的发布也反映了 DeepSeek 从研究机构向商业化实体的转型。公司于同期启动了首轮外部融资,面临核心研究人员流失的挑战。在芯片层面,V4 首次正式适配华为昇腾 950PR 推理芯片,标志国产硬件与前沿大模型的深度协同,但此前 2025 年的昇腾 910C 训练失败是 V4 延迟的重要原因。中国 AI 实验室之间形成了独特的开源飞轮效应:DeepSeek 的 MLA 架构被 Kimi 采用,而 Kimi 的 Muon 优化器被 DeepSeek 用于 V4 训练[^c4],技术扩散速度明显加快[^c6]。此外,DeepSeek 联合北京大学提出了 Engram 条件记忆模块,作为下一代稀疏模型的第二个稀疏化轴,已在 V4 的 TileKernels 算子库中得到工程实现。V4 在编程和数学基准上已接近甚至超越部分顶尖闭源模型,但在综合能力方面仍被评估落后美国前沿模型约 8 个月。
Connections
- [[models/deepseek-v4]] — 模型规格、架构细节和基准测试
- [[events/deepseek-v4-release]] — 发布时间线、市场影响和 API 迁移
- [[companies/deepseek]] — 深度求索公司的组织发展与融资历程
- [[companies/high-flyer]] — 母公司幻方量化
- [[people/liang-wenfeng]] — 创始人的战略转型与芯片决策
- [[people/guo-daya]] — 核心研究人员的流失
- [[concepts/hybrid-attention]] — 混合注意力机制技术细节
- [[concepts/muon-optimizer]] — Muon 优化器与训练创新
- [[concepts/muon-clip]] — Moonshot AI 开发的 Muon 变体
- [[concepts/batch-invariance]] — 批不变性设计原则
- [[concepts/on-policy-distillation]] — On-Policy 蒸馏方法
- [[concepts/engram]] — 条件记忆模块
- [[technologies/deepgemm]] — 自研矩阵运算库
- [[technologies/mega-moe]] — 融合 MoE 内核
- [[technologies/huawei-ascend-950pr]] — 国产芯片适配
- [[technologies/tilekernels]] — 算子库