DeepSeek V4
DeepSeek V4 是深度求索于 2026 年 4 月 24 日发布的第四代大语言模型系列,以 MIT 许可证开源、百万 token 超长上下文和极致的性价比为核心特征。模型分为 V4-Pro(1.6 万亿参数、激活 490 亿)和 V4-Flash(2840 亿参数、激活 130 亿),发布后迅速在全球 AI 模型调用量排行榜上登顶。
2026 年 6 月 16 日,The Information 确认 DeepSeek 已正式完成超过 74 亿美元的融资,投后估值超过 500 亿美元,是迄今中国 AI 初创公司最大规模的单轮融资。本轮融资采用了一项极为罕见的交易结构:投资者需将资金投入由创始人梁文锋管理的有限合伙企业而非公司本身,资金设有五年锁定期且无投票权,国家人工智能产业投资基金是唯一例外[^c89]。详见 [[概念/financing|融资与商业化]]。
华尔街半导体研究机构 SemiAnalysis 的 Trace 级拆解报告确认,DeepSeek V4 的部分架构是为华为昇腾推理进行协同设计的("in part co-designed for Huawei Ascend inference")[^c90]。V4 发布时,仅英伟达 CUDA 和华为 CANN 两大软件栈实现了 Day-0 完整推理支持,AMD ROCm 仅能维持每秒 1 至 2 个 token,英伟达 TRT-LLM 亦存在静默损坏 bug。SemiAnalysis 将这一首次与 CUDA 齐平的首发支持称为"代际变化,不是渐进追赶"[^c91][^c92]。详见 [[基础设施/huawei-ascend-strategy|华为昇腾适配与硬件战略]]。
DeepSeek 将 V4 描述为一次真正的代际升级而非 V3.2 的简单刷新[^c103],其三大核心架构创新——混合注意力机制(CSA/HCA)、流形约束超连接(mHC)以及 Muon 优化器配合 FP4/FP8 混合精度训练——共同构成了从训练到推理的全链路效率提升。
海外企业支出追踪平台 Ramp 的 6 月 AI 趋势指数显示,DeepSeek 登顶企业增长榜首,超过 OpenAI、Anthropic 和谷歌[^c31]。Ramp 首席经济学家 Ara Kharazian 指出许多美国公司直接购买 DeepSeek 官方托管 API 服务而非本地部署开源模型[^c62][^c63]。多家企业将全部 API 调用从 Anthropic 切换至 DeepSeek-V4,节省数百万美元成本。V4-Flash 的输入价格为 Claude Opus 4.7 的 1/107,输出价格为 GPT-5.5 的 1/100[^c32]。2026 年 6 月,美国 AI Agent 初创公司 Lindy 的 CEO Flo Crivello 宣布将 100% 流量从 Anthropic 切换至 DeepSeek V4,节省数百万美元成本并在核心场景中获得性能提升[^c67][^c68]。2026 年 6 月 11 日,《华尔街日报》报道进一步揭示,美国企业和初创公司加速转向 DeepSeek、智谱 AI 等中国开源模型,部分场景成本降低 95%,高消费客户群中开源模型 token 使用量增长速度是闭源模型的 4 倍[^c95]。
Vercel 发布的 2026 年 6 月 AI Gateway 生产指数显示,DeepSeek V4 系列的 Token 流量份额在 5 月从不足 1% 飙升至 17%,超过 OpenAI(13%)跃居第三,但由于极低定价,全部流量仅占网关总支出的约 1%[^c93][^c94]。在编程 AI Agent 场景中,DeepSeek 贡献了 49% 的 Token 流量但仅占 4% 的成本。
2026 年 6 月 17 日,Axios 报道微软正在评估将 DeepSeek V4 微调版引入其企业级 Copilot Cowork 智能体工具作为低成本模型选项。Anthropic 最新旗舰模型 Fable 5 输出定价为 50 美元/百万 token,而 DeepSeek V4 Pro 输出定价为 0.87 美元/百万 token,两者价差约 57 倍。微软表示 DeepSeek 模型将完全托管在 Azure 上作为可选项提供,预计未来几周内推出低成本模型选项。这一事件标志着开源模型进入全球顶级企业 AI 供应链的评估体系。
DeepSeek 与阿里 Qwen 系列在 Hugging Face 热门新模型下载量占比合计超过 44%[^c40]。麻省理工学院与 Hugging Face 的联合研究显示,过去一年中国研发的开源权重模型全球下载量占比达 17.1%,反超美国的 15.8%,居全球第一[^c56]。2026 年 6 月 8 日当周,DeepSeek 旗下模型在 OpenRouter 平台的周调用总量达 5.6 万亿 Token,超过 Anthropic、谷歌,连续三周位居各厂商第一[^c61]。5 月 25 至 31 日当周全球总调用量 31.8 万亿 Token,中国大模型达 11.13 万亿 Token,连续五周超过美国[^c2][^c3]。此前 5 月 18 至 24 日当周,DeepSeek-V4-Flash 以 3.43 万亿 Token 首次登顶全球第一[^c25]。在6月首周(6月1日至7日),全球周调用量进一步升至36.1万亿Token,中国模型合计14.19万亿Token,美国模型仅3.2万亿Token,中国连续六周超过美国[^c82]。DeepSeek-V4-Flash连续第三周位居全球第一,MiniMax M3首次跻身全球前三[^c84],Anthropic的Claude Sonnet 4.6与Claude Opus 4.7双双跌出前五[^c83]。
V4 最颠覆性的突破在于引入了虚拟硬件层,将华为昇腾、寒武纪、海光等国产芯片转化为"无差异的标准算力单元"[^c7],彻底打破英伟达 CUDA 的软件锁定。DeepSeek V4 在发布前打破行业惯例,未向英伟达和 AMD 提供早期访问权限,反而率先完成对华为昇腾芯片的深度适配[^c70]。在算力消耗方面,自研稀疏注意力机制使 V4 处理百万级 Token 长上下文时的算力消耗仅为上代产品的 27%,KV Cache 占用降至 10%[^c37]。缓存命中与缓存未命中输入之间的价差在 Pro 层级高达 120 倍,远超竞争对手约 6 至 10 倍的比率[^c60]。在推理成本上,V4 仅为 GPT-5.5 的数十分之一到百分之一。根据 Artificial Analysis 的 Intelligence Index v4.0,Claude Opus 4.8 以 61.4 分排名全球第一,超越此前领先的 GPT-5.5(60.2 分)[^c51][^c52],V4 Pro 以 52 分位列第 10(开源权重第 4)[^c26][^c4]。截至 2026 年 6 月,开源权重模型指数前十名中有七席来自中国实验室,其余来自美国实验室[^c47]。美国最强开源模型 NVIDIA Nemotron 3 Ultra 以 48 分排名第 5[^c53]。在性价比排名中,V4 Pro 以 $268 完成 Intelligence Index 基准测试的成本位居全球第一,比 GPT-5.5 便宜约 12 倍、比 Claude Opus 4.7 便宜约 19 倍[^c28]。VentureBeat 的分析指出,V4-Pro 在 100 万 token 上下文下仅需 5.48 GB HBM,远低于标准架构的 89 GB 以上[^c22]。在 Artificial Analysis 的 capability-per-dollar 维度上,V4-Pro 以 171.9 分位居全球第一——约为 Claude Opus 4.8 的 31 倍、GPT-5.5 的 45 倍[^c44]。
2026 年 5 月,美国 NIST 下属 CAISI(AI 安全与创新中心)发布基于项目反应理论(IRT)的 DeepSeek V4 Pro 独立评估。CAISI 的 IRT 估算 Elo 评分将 DeepSeek V4 Pro 列为 800 分(±28),低于 GPT-5.5 的 1,260 分和 Claude Opus 4.6 的 999 分。CAISI 总结认为 DeepSeek V4 Pro"落后前沿约 8 个月"[^c71]。该结论因两项非公开基准(CTF-Archive-Diamond、PortBench)偏重网络安全领域而引发争议——在公开基准上 V4 Pro 与竞品差距仅 1 至 3 个百分点。在成本方面,DeepSeek V4 在 7 项基准中的 5 项上比最具成本效益的美国参考模型 GPT-5.4 mini 更具优势[^c72]。
V4 还通过 Vals AI 的 Vibe Code Bench 展现了在代码生成领域的优势,以 49.93% 的得分在所有开源权重模型中排名第一,相较上一代 V3.2 的 5.11% 实现约 10 倍提升[^c54][^c55]。在 Vals Index 综合指数榜中,V4 以 63.87% 位列开源第二,紧随 Kimi K2.6 的 63.94%[^c55]。
在基准评测与学术应用方面,DeepSeek V4 展现出多层面的竞争力。2026 年高考首日财联社的评测中,DeepSeek V4 与谷歌 Gemini 3.5 Flash 以 66 分(满分 70 分)并列第一[^c33]。普林斯顿大学语言与智能研究中心(PLI)以 DeepSeek-V4-Flash 为核心模型构建的 Goedel-Architect 智能体框架,在形式化定理证明领域实现突破:采用蓝图生成与精炼机制,在 MiniF2F 测试集上取得 99.2% pass@1 的成绩(242/244 道题),在 PutnamBench 上以 75.6% 的通过率击败了谷歌 Gemini 2.5 Pro 驱动的 Hilbert 系统(70.0% 通过率、17 万美元成本),成本优势约 500 倍(294 美元)[^c35][^c65][^c66]。DeepSeek 内部调研显示,50 多位工程师使用 V4-Pro 处理真实编程任务后,52% 认为其可以作为主力工具。另一项覆盖 85 名有使用经验的开发者和研究人员的调研中,超过九成认为 V4-Pro 已经可以作为首选或接近首选的编程模型[^c42]。在内部评测集上,V4-Pro-Max 取得 67% 的通过率,高于 Sonnet 4.5 的 47%[^c43]。
在融资领域,2026 年 6 月最新报道显示 DeepSeek 正推进首轮约 500 亿元融资,腾讯拟出资 100 亿元、宁德时代计划出资 50 亿元,梁文锋个人计划出资 200 亿元(持股 84.29%),投后估值区间 3500 亿至 4000 亿元[^c12][^c61][^c62]。梁文锋的融资立场经历转变——从 2025 年 R1 版本发布后"短期内没有融资计划"的表态,到 2026 年因人才流失、算力成本、巨头反攻三重压力而启动融资[^c57]。V4 系列从英伟达 CUDA 生态整体迁移至华为昇腾 CANN 体系,单轮训练成本据称超过 5 亿美元[^c58]。DeepSeek 团队自身在技术报告中评估,V4 综合能力仍落后 GPT-5.4 与 Gemini-3.1 Pro 约三到六个月[^c59]。
与月之暗面(Kimi)形成鲜明对比的是,DeepSeek 在融资后并未将资金投入大规模产品扩张,而是转向算力基础设施和 Harness 团队建设(详见 [[概念/financing|融资与商业化]])。2026 年 6 月 9 日,DeepSeek 官网悄然上线了"IDC 设计规划工程师"招聘信息,信号明确指向自建算力基础设施(详见 [[概念/financing|融资与商业化]])。
2026 年 5 月 22 日,DeepSeek 将 V4-Pro 的 2.5 折优惠转为永久定价,V4-Pro 价格永久锁定为缓存命中输入 0.025 元/百万 tokens、缓存未命中输入 3 元、输出 6 元;V4-Flash 相应为 0.02 元、1 元和 2 元。5 月 27 日,小米 MiMo-V2.5 系列将 Pro 档定价完全对齐至 DeepSeek V4-Pro,最高降幅 99%,三项核心价格完全一致[^c27],标志着国产大模型 API 从能力溢价进入成本约束阶段。2026 年 6 月 2 日,腾讯云跟进降价,自 6 月 3 日起将 V4-Pro 推理输入与输出价格统一降低 75%,缓存命中费用下调 97.5%,云端价格全面对齐官方水平[^c9][^c13]。6 月 16 日,腾讯云进一步宣布 V3.2 模型将于 7 月 16 日正式下线,推荐用户迁移至 V4 系列[^c96]。
DeepSeek 的永久降价在全球 AI 市场引发连锁反应。2026 年 6 月 11 日,《华尔街日报》报道 OpenAI 正考虑大幅调降 Token 价格以应对 DeepSeek 的竞争压力以及 Anthropic 的强劲增长——Anthropic 第二季预计营收达 109 亿美元,增幅 130%,或实现运营利润 5.59 亿美元;OpenAI 第一季度营收约 60 亿美元,仍处于亏损状态[^c78][^c79]。分析认为"价格战"将考验模型商的持续经营能力与商业模式,OpenAI 和 Anthropic 据报均已秘密提交 IPO 申请。DeepSeek 的定价策略正在重塑全球 AI 竞争格局。
在国产算力适配方面,V4 发布后取得了多项里程碑式突破。深圳河套学院联合华为等单位仅用 1 个月时间基于昇腾 910C 集群完成了 V4-Pro 全参数续训练与 SFT 稳定运行,MFU 达 34.9%,是业界首个由第三方机构基于国产算力完成的 1.6 万亿参数模型全参数后训练工程实践[^c34][^c75]。2026 年 6 月 11 日,华为云副总裁陈林宣布昇腾 950DT 芯片将于 8 月正式上线华为云(早于原定第四季度计划),DeepSeek 将作为优先部署合作伙伴,V4.2 有望借助 950DT 的强劲算力推出[^c73][^c74]。摩尔线程 MTT S5000 平台上的推理性能同样实现显著跃迁,单 GPU 吞吐较 4 月底基线提升约 18.8 倍[^c36]。2026 年 6 月 15 日,DeepSeek V4.1 Flash 灰度测试启动,社区用户观察到知识截止日期从 2025 年 5 月更新至 2026 年 1 月,代码能力(SVG、Three.js)获得"天差地别的提升"[^c88]。2026 年 5 月 21 日,英伟达 CEO 黄仁勋在 CNBC 采访中承认英伟达已基本将中国 AI 芯片市场让给华为——美国自 2022 年起逐步升级出口管制后,英伟达在中国 AI 加速器市场的份额从约 95% 降至零[^c69][^c48]。英伟达 CFO 确认中国区数据中心计算收入当季及下一季度均为零[^c49]。摩根士丹利预测,2026 年华为将占据中国 AI 加速器市场 62% 的份额[^c50]。在不到三年内,中国已建立了规模约 300 至 350 亿美元的国产 AI 芯片市场[^c69]。
在安全方面,DeepSeek V4 引入了企业级输出护栏体系,通过结构化 JSON 强制输出、分层 Few-shot 样例库和混合安全校验流水线实现越狱防护。在企业级压力测试中,V4 的越狱拦截率达 98.7%,误杀率仅 0.3%,结构化合规率达 99.6%[^c80]。安恒信息 2026 年红队基准集的独立测试进一步验证了这一水平——基线越狱拦截率为 76.3%,经过本体约束、prompt 加固和运行时动态分析三层优化后可提升至 97.9%(+21.6%)[^c81]。这一工程级防护能力与企业级部署场景中的实际安全需求直接相关。
2026 年 5 月,DeepSeek 正式组建 Harness(工程外壳/智能体底座)团队,内部直接对标 Anthropic Claude Code,开发自有桌面端编码智能体产品 DeepSeek Code[^c18],标志着从纯模型提供商向智能体产品公司的转型。同时,DeepSeek 同步完成 API 输出提速与服务扩容,V4-Pro 支持最高 500 并发请求(Flash 上限 2500)。
2026 年 6 月 18 日,DeepSeek 在网页端和 App 端正式上线了识图功能(Vision Mode),支持用户上传图片进行视觉分析。该功能基于 V4-Flash 微调的多模态推理模型构建,采用"Thinking with Visual Primitives"视觉原语框架实现"语言逻辑+空间坐标"双轨思维。初期测试显示该功能本质为 OCR 读图而非多模态视觉语言模型,在人脸识别和复杂文字识别方面存在局限,详见 [[概念/识图功能]]。
然而,V4 的爆发式增长也带来了严峻的运营挑战。截至 2026 年 5 月,DeepSeek 已出现 18 次服务异常[^c1],免费模式下的算力供需矛盾成为核心瓶颈。在安全方面,2026年4月底的一项独立红队评测发现 V4 Pro 存在显著的对齐伪造信号[^c8]。2026年6月,新加坡Neo Research实验室的横向评测进一步发现,DeepSeek V4 Pro的评估感知(Evaluation Awareness)得分为17%、Kimi K2.6为60%、Claude 4.5 Opus约为80%[^c85][^c86]。2026年5月19日,DeepSeek 就用户输入 <think> 特殊字符触发无关回复的事件发布官方声明,将其定性为"特殊字符引发的模型幻觉"[^c19]。资本市场方面,国证算力基础设施主题指数近一年上涨 196%[^c5],反映算力供需矛盾正在驱动国产算力全产业链的价值重估。国家数据局在政策中首次明确提出"探索词元(Token)交易等新型交易模式"[^c14],IDC 预计 2026 年中国 MaaS 市场的 Token 消耗量将达到 40000 万亿[^c15]。
2026 年 4 月 24 日同日,美团发布了 LongCat-2.0-Preview(后以匿名模型 [[模型/owl-alpha|Owl Alpha]] 在 OpenRouter 上线)。2026 年 6 月 1 日,MiniMax M3 和 NVIDIA Nemotron 3 Ultra 同日发布,分别代表中美开源权重模型的最高水平。MiniMax M3 以原生多模态能力(SWE-Bench Pro 超越 GPT-5.5 和 Gemini 3.1 Pro)对不提供原生多模态的 V4 构成直接竞争压力,并在 AA Intelligence Index v4.0 上以 55 分取得开源模型全球最高排名。随后 Claude Opus 4.8 以 61.4 分在 AA Intelligence Index 上超越 GPT-5.5 登顶全球第一[^c51],进一步加剧了前沿模型的头部竞争。2026 年 6 月,法国科技媒体 Leptidigital 发表深度分析,认为 DeepSeek 已不再是"搅局者",其开源与低成本策略正在重新定义生成式 AI 的经济标准[^c87]。Artificial Analysis 的 Intelligence Index v4.0 方法学全面更新后,顶级模型得分从约 73 分降至约 51 分,恢复了评测区分度[^c45][^c64]。
开发部署指南
DeepSeek V4 系列在 API 集成和自托管部署方面有若干实践要点。
部署硬件需求
自托管 V4 系列需根据模型规格选择合适的硬件配置[^c99][^c100]:
| 模型 |
最低配置 |
推荐配置 |
| V4 Flash |
2×H200(141GB,FP4+FP8)或 1×H200(INT4) |
4×H200 |
| V4 Pro |
8×H100(FP8) |
单 NVIDIA HGX B200 节点 |
| V4 Flash(开发) |
Mac M3 Ultra 192GB(MLX 4-bit) |
— |
V4 Flash 可单卡运行于 H200 上,但生产环境推荐 4×H200 集群。V4 Pro 最低需要 8×H100(FP8)。消费级显卡(如 RTX 4090/5090)无法容纳 V4 系列模型。V4 Pro 可部署在单个 NVIDIA HGX B200 节点上——在 1.6 万亿参数模型中尚属首次。
API 集成注意事项
V4 的 API 集成中存在若干已知问题[^c98][^c101][^c102]:
- 多轮 thinking 模式 400 错误:
reasoning_content 字段在序列化对话历史时被多数客户端自动丢弃,导致下一轮请求报 400 错误,是生产环境中最大的集成陷阱
- 高峰期服务繁忙:官方 API 在高峰时段可能返回 HTTP 503/429 状态码
- 工具调用泄漏:偶发性回归问题,工具调用内容可能泄漏到
content 字段
- 纯文本模型:V4 不支持原生多模态输入(图像、音频),存在多模态能力缺口
- 事实性弱项:SimpleQA-Verified 得分为 57.9,低于 Gemini 3.1 Pro 的 75.6
- 长程智能体能力差距:SWE-Bench Pro 得分为 55.4%,落后于 Claude Opus 4.7 的 64.3%
成本对比
V4 Pro 的 API 定价相较美国前沿模型具有显著优势:输入价格约为 Claude Opus 4.7 的 1/34,输出价格约为其 1/86[^c97]。V4-Flash 的输入价格为 Claude Opus 4.7 的 1/107,输出价格为 GPT-5.5 的 1/100[^c32]。