DeepSeek-V4 正式发布:百万 Token 上下文、混合注意力架构与开源模型新 SOTA

Fanch AIon 23 days ago

DeepSeek-V4 hybrid attention architecture million context infographic cover

今天是备受瞩目的 DeepSeek-V4 正式发布之日。随着 DeepSeek-V4 正式发布,团队在 AI 能力上实现了历史性跨越,特别是完美驾驭了百万 Token 上下文。通过引入革命性的混合注意力架构,这次更新确立了绝对的开源模型新 SOTA

通过对底层系统的深度重构,DeepSeek-V4 正式发布成功打破了超长处理的效率壁垒。以下是其混合注意力架构百万 Token 上下文如何重新定义开源模型新 SOTA的核心亮点。


1. 核心模型矩阵:专为百万 Token 上下文打造

DeepSeek-V4 正式发布的预览版包含两款强大的混合专家 (MoE) 模型,原生支持百万 Token 上下文

  • DeepSeek-V4-Pro:1.6T 总参数,每 Token 激活 49B 参数,轻松应对百万 Token 上下文
  • DeepSeek-V4-Flash:284B 总参数,每 Token 激活 13B 参数,让百万 Token 上下文触手可及。

2. 突破:混合注意力架构

为了在百万 Token 上下文下实现极致效率,DeepSeek-V4 正式发布引入了三项关键创新,首当其冲的便是混合注意力架构

  • 混合注意力架构:该混合注意力架构结合了压缩稀疏注意力 (CSA) 与重度压缩注意力 (HCA),大幅提升计算效率。
  • 流形约束超连接 (mHC):配合混合注意力架构增强传统残差连接。
  • Muon 优化器:在训练中引入,实现更快收敛。

3. 混合注意力架构带来的效率飞跃

DeepSeek-V4 CSA and HCA efficiency comparison diagram against traditional architecture

处理百万 Token 上下文需要巨大算力,但 DeepSeek-V4 正式发布展现了惊人的优化:

  • 混合注意力架构的加持下,DeepSeek-V4-Pro 的单 Token 推理 FLOPs 仅为 V3.2 的 27%。
  • 在相同的百万 Token 上下文设置下,其 KV Cache 仅为 V3.2 的 10%。
  • 更轻量的 DeepSeek-V4-Flash 同样利用混合注意力架构将效率推向极致。

4. 跑分:开源模型新 SOTA

DeepSeek-V4 正式发布在 32T 高质量 Token 上进行了预训练,并在后训练阶段利用同策略蒸馏锁定了这个开源模型新 SOTA

  • DeepSeek-V4-Pro-Max 重新定义了开源模型新 SOTA,在核心任务上全面超越前代。
  • 在编程竞赛中,这个开源模型新 SOTA在 Codeforces 排名第 23。
  • 在 Putnam-2025 测试中,DeepSeek-V4 正式发布取得了 120/120 的完美证明成绩。

5. 专为智能体打造的工具升级

DeepSeek-V4 agentic AI performance in coding, math, and tool calling

除了百万 Token 上下文DeepSeek-V4 正式发布还升级了工具调用,巩固了其作为 Agent 工作流开源模型新 SOTA的地位:

  • 引入全新 XML 格式 Schema(基于 <|DSML|>),减少调用错误。
  • 采用交叉思考机制,在多轮对话中保持连贯的思维链。

结语

DeepSeek-V4 正式发布不仅仅是参数升级。通过开创性的混合注意力架构,它将百万 Token 上下文变成了高效的现实。随着 V4 问世,我们见证了一个将定义超长文本处理时代的开源模型新 SOTA