2026-05-16 来源：DeepSeek-V4 技术报告

目录

摘要
核心架构升级
训练
效率提升
链接
相关

源文件：DeepSeek_V4.pdf
分类：AI / 模型架构
标签：DeepSeek / MoE / 长上下文 / 注意力机制
日期：2026-04-25

摘要

DeepSeek-V4 系列包括两个 MoE 模型：DeepSeek-V4-Pro（1.6T 参数，49B 激活）和 DeepSeek-V4-Flash（284B 参数，13B 激活），支持 100 万 token 上下文。

核心架构升级

混合注意力：CSA（压缩稀疏注意力）+ HCA（重度压缩注意力），提升长上下文效率
mHC（流形约束超连接）：增强传统残差连接
Muon 优化器：收敛更快，训练更稳定

训练

预训练：超过 32T 高质量 token
后训练：完整 pipeline 解锁并增强能力

效率提升

100 万 token 上下文下：仅需 DeepSeek-V3.2 的 27% FLOPs，10% KV cache
DeepSeek-V4-Pro-Max 在各项基准测试中刷新 SOTA

链接

https://huggingface.co/collections/deepseek-ai/deepseek-v4

相关

DeepSeek-V4（仓库内概念页摘要）
大语言模型工作原理概览（MoE 与注意力放在 LLM 整体训练框架中）