DeepSeek-V4 正式发布：百万 Token 上下文、混合注意力架构与开源模型新 SOTA

Fanch AIon 23 days ago

DeepSeek-V4 hybrid attention architecture million context infographic cover

今天是备受瞩目的 DeepSeek-V4 正式发布之日。随着 DeepSeek-V4 正式发布，团队在 AI 能力上实现了历史性跨越，特别是完美驾驭了百万 Token 上下文。通过引入革命性的混合注意力架构，这次更新确立了绝对的开源模型新 SOTA。

通过对底层系统的深度重构，DeepSeek-V4 正式发布成功打破了超长处理的效率壁垒。以下是其混合注意力架构和百万 Token 上下文如何重新定义开源模型新 SOTA的核心亮点。

1. 核心模型矩阵：专为百万 Token 上下文打造

DeepSeek-V4 正式发布的预览版包含两款强大的混合专家 (MoE) 模型，原生支持百万 Token 上下文：

为了在百万 Token 上下文下实现极致效率，DeepSeek-V4 正式发布引入了三项关键创新，首当其冲的便是混合注意力架构：

DeepSeek-V4 CSA and HCA efficiency comparison diagram against traditional architecture

处理百万 Token 上下文需要巨大算力，但 DeepSeek-V4 正式发布展现了惊人的优化：

DeepSeek-V4 正式发布在 32T 高质量 Token 上进行了预训练，并在后训练阶段利用同策略蒸馏锁定了这个开源模型新 SOTA。

$DeepSeek-V4 agentic AI performance in coding, math, and tool calling$

除了百万 Token 上下文，DeepSeek-V4 正式发布还升级了工具调用，巩固了其作为 Agent 工作流开源模型新 SOTA的地位：

DeepSeek-V4 正式发布不仅仅是参数升级。通过开创性的混合注意力架构，它将百万 Token 上下文变成了高效的现实。随着 V4 问世，我们见证了一个将定义超长文本处理时代的开源模型新 SOTA。