DeepSeek V4
DeepSeek V4 是深度求索(DeepSeek)于 2026 年 4 月 24 日发布的第四代大语言模型系列,包含 V4-Pro 和 V4-Flash 两个混合专家(MoE)架构版本,均采用 MIT 许可证开源并支持百万 token 超长上下文[^c1][^c2]。两个版本均训练了 33 万亿 token[^c8],在后训练阶段引入了在策略蒸馏(OPD)和生成式奖励模型(GRM)等新方法。模型提供三种推理模式(非思考、思考高、极致思考),覆盖从低延迟响应到深度推理的不同场景。
DeepSeek V4 的核心架构创新在于混合注意力机制,将压缩稀疏注意力(CSA)与重度压缩注意力(HCA)交错部署,在百万 token 上下文中仅需 V3.2 的 27% 推理计算量和 10% 的 KV 缓存占用[^c3][^c4]。模型还引入了流形约束超连接(mHC)、Muon 优化器、FP4 量化感知训练等多项技术改进。百万 token 上下文自此成为 DeepSeek 所有官方服务的标配[^c7]。
在性能方面,V4-Pro-Max 在 LiveCodeBench 上取得 93.5 分,Codeforces 评分达 3206 分,均为所有模型的最高纪录[^c5]。在 SWE-Bench Verified 上达到 80.6% 的解决率,与 Claude Opus 4.6 的 80.8% 几乎持平。SimpleQA-Verified 上达到 57.9,大幅领先其他开源模型[^c9]。内部开发者调研显示,91% 的受访者认为 V4-Pro 可作为主力编程模型[^c10]。模型已在英伟达 GPU 和华为昇腾 NPU 双平台完成验证,并通过多家云服务提供商以极具竞争力的价格提供 API 服务[^c6]。
Connections
- [[DeepSeek V4 Pro]] — 旗舰级模型规格与性能
- [[DeepSeek V4 Flash]] — 高效经济的轻量版本
- [[CSA/HCA 混合注意力机制]] — 核心架构创新
- [[训练系统与优化方法]] — 后训练与训练稳定性技术
- [[智能体能力]] — 面向 Agent 工作负载的专项优化
- [[部署生态]] — 硬件适配与供应商生态
- [[评测与基准表现]] — 多维度基准测试结果