返回技术博客

DeepSeek V4:开源模型如何用 1/83 的价格达到闭源前沿水平

DeepSeek V4:开源模型如何用 1/83 的价格达到闭源前沿水平

2026 年 4 月 24 日,DeepSeek 在 Hugging Face 上以 MIT 许可发布了 V4 系列模型权重。这不是又一个"接近 GPT"的开源模型——它直接用 $0.30/M output tokens 的价格,在 SWE-bench Verified 上跑出了 80.6% 的成绩,仅比 Claude Opus 4.6 低 0.2 个百分点。

作为对比:Claude Opus 4.7 收费 $25/M,GPT-5.5 收费 $30/M。83 到 100 倍的价格差距,性能却在同一水平线上。

为什么能这么便宜

V4 的低价不是亏本补贴,而是架构效率的直接反映。

MoE 架构:1.6T 参数,只激活 49B

V4-Pro 总参数量 1.6 万亿,但每个 token 只激活 490 亿参数。这意味着: - 单 token 推理 FLOPs 仅为 V3.2 的 27% - 1M 上下文下,KV Cache 占用仅为上一代的 10%

全新注意力机制:CSA + HCA

V4 用两种新注意力变体取代了 V3 的 MLA(Multi-head Latent Attention),逐层交替使用:

  • CSA(Compressed Sparse Attention):每 4 个 token 压缩为 1 个条目,用 FP4 索引器保留最相关的 1024 个压缩条目
  • HCA(Heavily Compressed Attention):128:1 的压缩比,对剩余内容做全量注意力

两者配合,在 1M 上下文下,KV Cache 缩小到 BF16 GQA-8 基线的约 2%——50 倍压缩。

V4-Flash:13B 激活打平 37B

更激进的 V4-Flash 版本:总参数 284B,激活仅 13B,却在多项基准上匹配 V3.2-Base 的 37B 激活性能: - MMLU:88.7 vs 87.8 - CMMLU:90.4 vs 88.9 - LongBench-V2:44.7 vs 40.2

编程能力:闭源模型的护城河被突破

这是让 Anthropic、OpenAI 最头疼的部分:

基准 DeepSeek V4-Pro Claude Opus 4.6 GPT-5.4 xHigh Gemini 3.1 Pro
SWE-bench Verified 80.6% 80.8%
LiveCodeBench Pass@1 93.5
Codeforces Rating 3206 3168 3052

Agentic coding——过去两年支撑 $25/M 定价的核心用例——不再是闭源模型的独占领地。

V4-Flash 让 Steering 技术重新火起来

一个意外的涟漪效应:V4-Flash 的开源和高性能,让 LLM Steering(模型引导向量) 重新成为热门话题。

Redis 作者 antirez 基于 V4-Flash 做了 DwarfStar 4 项目,将 steering 作为一等公民内置。Steering 的核心思想是:不通过 prompt 而是直接操纵模型中间层激活值来引导输出行为——比如调一个"简洁/啰嗦"的旋钮,或者放大"创造性"维度。

以前这个技术只停留在研究阶段,因为需要本地运行模型。现在 V4-Flash 让普通工程师第一次能在本地跑一个「足以媲美低端前沿模型 agentic coding 能力」的模型,steering 的实用价值才真正显现。

行业冲击:定价体系的终结

"When the cheapest credible option for 80%+ SWE-bench was $15/M, closed labs could hold the line. With $0.30 weights sitting on Hugging Face under MIT, every procurement conversation starts from a different anchor."

预期的连锁反应:

  1. Anthropic/OpenAI 必须降价或差异化:要么压缩下一代产品的输出定价,要么在 agentic tool-use 能力上拉开 benchmark 无法衡量的差距
  2. 自托管重新成为选项:1.6T MoE 虽然需要多节点推理,但对已有 GPU 集群的团队来说经济账开始成立
  3. 中间层市场消失:$5-15/M 价位的模型如果性能不到前沿水平,生存空间被彻底挤压

注意事项

  • Benchmark 透明度:DeepSeek 的评测报告可信但审计程度不如 Anthropic/Google,独立复现仍在进行中
  • 数据治理:中国实验室背景,敏感代码场景下需评估合规风险
  • 自托管门槛:1.6T 参数的多节点推理,$0.30 的 API 价格前提是接受 DeepSeek 托管端点

总结

DeepSeek V4 不是"便宜但差点意思"的替代品。它是在核心编程任务上达到前沿水平的同时,把价格拉低两个数量级的结构性变化。

这不是促销,这是架构效率的胜利。当开源模型在最赚钱的用例上实现质量平价时,整个行业的定价逻辑都需要重写。