DeepSeek V4

DeepSeek V4 是深度求索（DeepSeek）于 2026 年 4 月 24 日发布的第四代大语言模型系列，包含 V4-Pro 和 V4-Flash 两个混合专家（MoE）架构版本，均采用 MIT 许可证开源并支持百万 token 超长上下文[^c1][^c2]。两个版本均训练了 33 万亿 token[^c8]，在后训练阶段引入了在策略蒸馏（OPD）和生成式奖励模型（GRM）等新方法。模型提供三种推理模式（非思考、思考高、极致思考），覆盖从低延迟响应到深度推理的不同场景。

DeepSeek V4 的核心架构创新在于混合注意力机制，将压缩稀疏注意力（CSA）与重度压缩注意力（HCA）交错部署，在百万 token 上下文中仅需 V3.2 的 27% 推理计算量和 10% 的 KV 缓存占用[^c3][^c4]。模型还引入了流形约束超连接（mHC）、Muon 优化器、FP4 量化感知训练等多项技术改进。百万 token 上下文自此成为 DeepSeek 所有官方服务的标配[^c7]。

在性能方面，V4-Pro-Max 在 LiveCodeBench 上取得 93.5 分，Codeforces 评分达 3206 分，均为所有模型的最高纪录[^c5]。在 SWE-Bench Verified 上达到 80.6% 的解决率，与 Claude Opus 4.6 的 80.8% 几乎持平。SimpleQA-Verified 上达到 57.9，大幅领先其他开源模型[^c9]。内部开发者调研显示，91% 的受访者认为 V4-Pro 可作为主力编程模型[^c10]。模型已在英伟达 GPU 和华为昇腾 NPU 双平台完成验证，并通过多家云服务提供商以极具竞争力的价格提供 API 服务[^c6]。

Connections

[[DeepSeek V4 Pro]] — 旗舰级模型规格与性能
[[DeepSeek V4 Flash]] — 高效经济的轻量版本
[[CSA/HCA 混合注意力机制]] — 核心架构创新
[[训练系统与优化方法]] — 后训练与训练稳定性技术
[[智能体能力]] — 面向 Agent 工作负载的专项优化
[[部署生态]] — 硬件适配与供应商生态
[[评测与基准表现]] — 多维度基准测试结果