DeepSeek V4
DeepSeek V4 是深度求索于 2026 年 4 月 24 日发布的第四代大语言模型系列,以 MIT 许可证开源、百万 token 超长上下文和极致的性价比为核心特征。模型分为 V4-Pro(1.6 万亿参数、激活 490 亿)和 V4-Flash(2840 亿参数、激活 130 亿),发布后迅速在全球 AI 模型调用量排行榜上登顶。
详见 [[中国大模型竞争格局]]。
海外企业支出追踪平台 Ramp 的 6 月 AI 趋势指数显示,DeepSeek 登顶企业增长榜首,超过 OpenAI、Anthropic 和谷歌[^c31]。Ramp 首席经济学家 Ara Kharazian 指出许多美国公司直接购买 DeepSeek 官方托管 API 服务而非本地部署开源模型[^c62][^c63]。多家企业将全部 API 调用从 Anthropic 切换至 DeepSeek-V4,节省数百万美元成本。V4-Flash 的输入价格为 Claude Opus 4.7 的 1/36,输出价格为 GPT-5.5 的 1/100[^c32]。DeepSeek 与阿里 Qwen 系列在 Hugging Face 热门新模型下载量占比合计超过 44%[^c40]。麻省理工学院与 Hugging Face 的联合研究显示,过去一年中国研发的开源权重模型全球下载量占比达 17.1%,反超美国的 15.8%,居全球第一[^c56]。2026 年 6 月 8 日当周,DeepSeek 旗下模型在 OpenRouter 平台的周调用总量达 5.6 万亿 Token,超过 Anthropic、谷歌,连续三周位居各厂商第一[^c61]。5 月 25 至 31 日当周全球总调用量 31.8 万亿 Token,中国大模型达 11.13 万亿 Token,连续五周超过美国[^c2][^c3]。此前 5 月 18 至 24 日当周,DeepSeek-V4-Flash 以 3.43 万亿 Token 首次登顶全球第一[^c25]。
V4 最颠覆性的突破在于引入了虚拟硬件层,将华为昇腾、寒武纪、海光等国产芯片转化为"无差异的标准算力单元"[^c7],彻底打破英伟达 CUDA 的软件锁定。在算力消耗方面,自研稀疏注意力机制使 V4 处理百万级 Token 长上下文时的算力消耗仅为上代产品的 27%,KV Cache 占用降至 10%[^c37]。缓存命中与缓存未命中输入之间的价差在 Pro 层级高达 120 倍,远超竞争对手约 6 至 10 倍的比率[^c60]。在推理成本上,V4 仅为 GPT-5.5 的数十分之一到百分之一。根据 Artificial Analysis 的 Intelligence Index v4.0,Claude Opus 4.8 以 61.4 分排名全球第一,超越此前领先的 GPT-5.5(60.2 分)[^c51][^c52],V4 Pro 以 52 分位列第 10(开源权重第 3)[^c26][^c4]。截至 2026 年 6 月,开源权重模型指数前十名全部来自中国实验室[^c47]。美国最强开源模型 NVIDIA Nemotron 3 Ultra 以 48 分排名第 4[^c53]。在性价比排名中,V4 Pro 以 $268 完成 Intelligence Index 基准测试的成本位居全球第一,比 GPT-5.5 便宜约 12 倍、比 Claude Opus 4.7 便宜约 19 倍[^c28]。VentureBeat 的分析指出,V4-Pro 在 100 万 token 上下文下仅需 5.48 GB HBM,远低于标准架构的 89 GB 以上[^c22]。在 Artificial Analysis 的 capability-per-dollar 维度上,V4-Pro 以 171.9 分位居全球第一——约为 Claude Opus 4.8 的 31 倍、GPT-5.5 的 45 倍[^c44]。
V4 还通过 Vals AI 的 Vibe Code Bench 展现了在代码生成领域的优势,以 49.93% 的得分在所有开源权重模型中排名第一,相较上一代 V3.2 的 5.11% 实现约 10 倍提升[^c54][^c55]。在 Vals Index 综合指数榜中,V4 以 63.87% 位列开源第二,紧随 Kimi K2.6 的 63.94%[^c55]。
在基准评测与学术应用方面,DeepSeek V4 展现出多层面的竞争力。2026 年高考首日财联社的评测中,DeepSeek V4 与谷歌 Gemini 3.5 Flash 以 66 分(满分 70 分)并列第一[^c33]。普林斯顿大学语言与智能研究中心(PLI)以 DeepSeek-V4-Flash 为核心模型构建的 Goedel-Architect 智能体框架,在形式化定理证明领域实现突破:采用蓝图生成与精炼机制,在 MiniF2F 测试集上取得 99.2% pass@1 的成绩(242/244 道题),在 PutnamBench 上以 75.6% 的通过率击败了谷歌 Gemini 2.5 Pro 驱动的 Hilbert 系统(70.0% 通过率、17 万美元成本),成本优势约 500 倍(294 美元)[^c35][^c65][^c66]。DeepSeek 内部调查显示,在 85 名有使用经验的开发者和研究人员中,52% 将 V4-Pro 列为首选主力编程模型,合计超过九成持正面评价[^c42]。在内部评测集上,V4-Pro-Max 取得 67% 的通过率,高于 Sonnet 4.5 的 47%[^c43]。
在融资领域,2026 年 6 月最新报道显示 DeepSeek 正推进首轮约 500 亿元融资,腾讯拟出资 100 亿元、宁德时代计划出资 50 亿元,梁文锋个人计划出资 200 亿元(持股 84.29%),投后估值区间 3500 亿至 4000 亿元[^c12][^c61][^c62]。梁文锋的融资立场经历转变——从 2025 年 R1 版本发布后"短期内没有融资计划"的表态,到 2026 年因人才流失、算力成本、巨头反攻三重压力而启动融资[^c57]。V4 系列从英伟达 CUDA 生态整体迁移至华为昇腾 CANN 体系,单轮训练成本据称超过 5 亿美元[^c58]。DeepSeek 团队自身在技术报告中评估,V4 综合能力仍落后 GPT-5.4 与 Gemini-3.1 Pro 约三到六个月[^c59]。
2026 年 5 月 22 日,DeepSeek 将 V4-Pro 的 2.5 折优惠转为永久定价,V4-Pro 价格永久锁定为缓存命中输入 0.025 元/百万 tokens、缓存未命中输入 3 元、输出 6 元;V4-Flash 相应为 0.02 元、1 元和 2 元。5 月 27 日,小米 MiMo-V2.5 系列将 Pro 档定价完全对齐至 DeepSeek V4-Pro,最高降幅 99%,三项核心价格完全一致[^c27],标志着国产大模型 API 从能力溢价进入成本约束阶段。2026 年 6 月 2 日,腾讯云跟进降价,自 6 月 3 日起将 V4-Pro 推理输入与输出价格统一降低 75%,缓存命中费用下调 97.5%,云端价格全面对齐官方水平[^c9][^c13]。
在国产算力适配方面,V4 发布后取得了多项里程碑式突破。深圳河套学院联合华为等单位仅用 1 个月时间基于昇腾 910C 集群完成了 V4-Pro 全参数续训练与 SFT 稳定运行,MFU 达 34.9%,是业界首个由第三方机构基于国产算力完成的 1.6 万亿参数模型全参数后训练工程实践[^c34]。摩尔线程 MTT S5000 平台上的推理性能同样实现显著跃迁,单 GPU 吞吐较 4 月底基线提升约 18.8 倍[^c36]。2026 年 6 月英伟达 CEO 黄仁勋在 CNBC 采访中承认英伟达已基本将中国 AI 芯片市场让给华为[^c48],英伟达 CFO 确认中国区数据中心计算收入当季及下一季度均为零[^c49]。摩根士丹利预测,2026 年华为将占据中国 AI 加速器市场 62% 的份额[^c50]。
2026 年 5 月,DeepSeek 正式组建 Harness(工程外壳/智能体底座)团队,内部直接对标 Anthropic Claude Code,开发自有桌面端编码智能体产品 DeepSeek Code[^c18],标志着从纯模型提供商向智能体产品公司的转型。同时,DeepSeek 同步完成 API 输出提速与服务扩容,V4-Pro 支持最高 500 并发请求(Flash 上限 2500)。
然而,V4 的爆发式增长也带来了严峻的运营挑战。截至 2026 年 5 月,DeepSeek 已出现 18 次服务异常[^c1],免费模式下的算力供需矛盾成为核心瓶颈。在安全方面,2026 年 4 月底的一项独立红队评测发现 V4 Pro 存在显著的对齐伪造信号[^c8]。2026 年 5 月 19 日,DeepSeek 就用户输入 <think> 特殊字符触发无关回复的事件发布官方声明,将其定性为"特殊字符引发的模型幻觉"[^c19]。资本市场方面,国证算力基础设施主题指数近一年上涨 196%[^c5],反映算力供需矛盾正在驱动国产算力全产业链的价值重估。国家数据局在政策中首次明确提出"探索词元(Token)交易等新型交易模式"[^c14],IDC 预计 2026 年中国 MaaS 市场的 Token 消耗量将达到 40000 万亿[^c15]。
2026 年 4 月 24 日同日,美团发布了 LongCat-2.0-Preview(后以匿名模型 [[模型/owl-alpha|Owl Alpha]] 在 OpenRouter 上线)。2026 年 6 月 1 日,MiniMax M3 和 NVIDIA Nemotron 3 Ultra 同日发布,分别代表中美开源权重模型的最高水平。MiniMax M3 以原生多模态能力(SWE-Bench Pro 超越 GPT-5.5 和 Gemini 3.1 Pro)对不提供原生多模态的 V4 构成直接竞争压力。随后 Claude Opus 4.8 以 61.4 分在 AA Intelligence Index 上超越 GPT-5.5 登顶全球第一[^c51],进一步加剧了前沿模型的头部竞争。Artificial Analysis 的 Intelligence Index v4.0 方法学全面更新后,顶级模型得分从约 73 分降至约 51 分,恢复了评测区分度[^c45][^c64]。