【四海读报】20251016:人工智能专题—DeepSeek

DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能

【原报告在线阅读和下载】:20251016【MKList.com】人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能 | 四海读报

【迅雷批量下载】:链接:https://pan.xunlei.com/s/VOXJ23RJHhoECPL5FRrVathfA1     提取码:umqb
【夸克批量下载】:链接:https://pan.quark.cn/s/fe42cc605010   提取码:j4Vv

image

 

1. 一段话总结

本报告(中原证券2025年10月16日发布,行业评级强于大市)指出,注意力机制是大模型处理长文本的核心,但面临显存开销与计算复杂度瓶颈;DeepSeek作为开源大模型代表,通过三次关键技术改进突破瓶颈:①MLA(多头潜在注意力) 减少90%注意力分数显存占用,降低42.5%训练成本;②NSA(原生稀疏注意力) 实现算法与硬件协同优化,长文本处理速度提升11倍,上下文可拓展至百万tokens;③DSA(DeepSeek稀疏注意力) 基于既有模型升级,无需重新训练,使模型API调用价大幅下降(输入缓存命中价仅0.2元/百万Tokens,为R1的20%);稀疏注意力将计算复杂度从O(L²) 降至亚平方级,推动大模型从“预训练Scaling”转向“后训练提效”,为AI产业释放更大发展潜能,同时提示国际形势不确定性风险。


2. 思维导图(mindmap)

image

 


3. 详细总结

一、报告基础信息

项目 内容
报告类型 人工智能行业专题报告(DeepSeek稀疏注意力机制)
发布机构 中原证券
发布日期 2025年10月16日
行业评级 强于大市(维持)
核心分析师 唐月(S0730512030001)
核心逻辑 DeepSeek的稀疏注意力机制(NSA/DSA)突破大模型显存与算力瓶颈,推动后训练提效,释放AI产业潜能

二、注意力机制与大模型发展的关系

  1. 注意力机制的核心价值
    人类通过选择性关注关键信息提升处理效率,深度学习模仿这一能力引入注意力机制,2017年谷歌《Attention Is All You Need》确立Transformer架构,解决了传统RNN的长序列遗忘问题,使大模型上下文长度从早期提升至128K甚至1M tokens
  2. 大模型发展的核心瓶颈
    传统稠密注意力机制的计算复杂度为O(L²)(L为序列长度),随文本长度增加,显存开销与计算成本呈平方级增长,限制长文本处理能力与模型Scaling(规模扩张)。
  3. 突破路径
    行业通过算法、系统、硬件三层面优化突破瓶颈,其中算法层面的稀疏注意力是关键——将计算复杂度降至亚平方级(如O(LlogL)、O(L*k)),仅对部分关键信息进行注意力计算,兼顾效率与性能。

三、DeepSeek在注意力机制的三次关键技术改进

DeepSeek作为开源大模型与低成本模型标杆,通过三次技术迭代优化注意力机制,具体如下表:

技术名称 发布时间 核心改进 关键效果 技术细节
MLA(多头潜在注意力) 2024年5月(V2模型) 引入低秩近似压缩KV Cache 1. 注意力分数显存占用减少90%
2. 训练成本降低42.5%
3. 生成吞吐量提升576%
改进传统MHA(多头注意力),通过潜在空间压缩键值缓存,成为R1模型成本低的核心原因
NSA(原生稀疏注意力) 2025年2月(论文发布) 算法与硬件协同优化 1. 长文本处理速度提升11倍
2. 性能比肩稠密注意力;
3. 上下文可拓展至百万tokens
1. 以“块”为粒度挑重点,解决GPU稀疏计算适配难题;
2. 首次在预训练阶段引入稀疏注意力,避免训练-推理误差;
3. 获ACL 2025最佳论文
DSA(DeepSeek稀疏注意力) 2025年9月(V3.2-Exp) 基于既有模型升级,无需重训 1. API调用价大幅下降(输入缓存命中0.2元/百万Tokens,为R1的20%);
2. 发布当日适配寒武纪/华为昇腾
1. 用“闪电索引器”筛选2048个关键词汇,细粒度稀疏计算;
2. 基于TileLang框架(优于Triton),适配国产芯片;
3. 低成本探索稀疏注意力,无需重新训练基座模型

四、DSA与NSA的核心差异

对比维度 NSA(原生稀疏注意力) DSA(DeepSeek稀疏注意力)
实现方式 参与完整预训练过程,从基座模型开始构建 基于既有模型(V3.1-Terminus)升级,仅需补充训练
编程框架 采用OpenAI开源的Triton框架 采用TileLang框架,支持更多深度优化,适配国产芯片
稀疏逻辑 分三层以“块”为粒度挑重点 用“闪电索引器”逐词筛选2048个关键词汇
核心优势 性能稳定,上下文拓展能力强(百万tokens) 成本低(无需重训),适配性好(国产芯片)
适用场景 长文本处理(如百万tokens文档分析) 低成本稀疏注意力验证、国产芯片生态场景

五、稀疏注意力对AI产业的价值:释放后训练潜能

  1. 推动模型Scaling新范式
    传统Scaling依赖预训练阶段“增参数、增数据”,面临成本瓶颈;稀疏注意力使大模型转向后训练提效——通过增加强化学习迭代步数(而非增大模型规模)提升能力。例如DeepSeek-R1-Zero在训练中,随强化学习步数增加,AIME精度持续提升,响应时长适配长思维链需求。
  2. 降低应用端门槛
    DSA带来的模型降价(输入缓存命中价0.2元/百万Tokens)提升性价比,促进AI应用落地(如长文本对话、多模态生成),推动更多功能从“技术验证”转向“商业化推广”。
  3. 支撑国产芯片生态
    DSA基于TileLang框架,可深度适配寒武纪、华为昇腾等国产芯片,解决稀疏计算在国产硬件上的效率问题,推动“算法-硬件”协同国产化。

六、风险提示

  • 国际形势不确定性:全球AI技术竞争、供应链限制可能影响稀疏注意力技术的跨境合作与硬件适配。

4. 关键问题

问题1:DeepSeek的NSA(原生稀疏注意力)为何能成为ACL 2025最佳论文?其在技术上的突破性创新体现在哪些方面?

答案
NSA成为ACL最佳论文的核心原因是其首次实现“预训练阶段原生稀疏注意力”,解决了行业长期存在的“训练-推理不一致”问题,同时兼顾性能与效率。技术突破性创新体现在三方面:

  1. 训练阶段稀疏化:此前稀疏注意力仅应用于推理阶段,预训练仍用稠密注意力,导致训练与推理存在误差;NSA首次在预训练阶段引入稀疏注意力,性能比肩甚至超越稠密注意力(在通用基准、长上下文任务、推理任务上平均表现更优)。
  2. 软硬协同优化:针对GPU不适合稀疏计算的难题,NSA以“块”为粒度设计注意力结构,同时引入丰富算子优化硬件适配,使64K序列处理速度在解码、前向传播、反向传播阶段均提升11倍,突破显存与算力瓶颈。
  3. 上下文拓展能力:NSA支持将模型上下文拓展至百万tokens,远超传统模型(如128K),为长文本分析(如百万字文档总结)提供技术支撑,打开新应用场景。

问题2:DSA(DeepSeek稀疏注意力)相比NSA,在商业化落地层面具备哪些优势?这些优势如何推动AI应用普及?

答案
DSA在商业化落地层面的核心优势是“低成本、高适配性”,具体推动AI应用普及的逻辑如下:

  1. 无需重新训练,降低研发成本:DSA基于既有模型(V3.1-Terminus)升级,无需从零开始预训练基座模型,大幅减少研发时间与算力投入(节省超50%训练成本),使中小企业也能低成本探索稀疏注意力,加速技术普及。
  2. 价格大幅下降,降低应用门槛:DSA使模型API调用价显著降低——输入缓存命中时0.2元/百万Tokens(为R1的20%)、输出3元/百万Tokens(为R1的19%),性价比提升推动应用端(如客服、文档处理)扩大使用规模,实现“降本→放量→再降本”的商业飞轮。
  3. 适配国产芯片,拓展落地场景:DSA基于TileLang框架(优于Triton),发布当日即适配寒武纪、华为昇腾等国产芯片,解决稀疏计算在国产硬件上的效率问题,助力“AI+国产硬件”生态落地,覆盖政府、国企等对国产化要求高的场景。

问题3:稀疏注意力机制(NSA/DSA)如何推动大模型从“预训练Scaling”转向“后训练提效”?这一范式转变对AI产业的长期影响是什么?

答案

1. 推动范式转变的核心逻辑:

传统“预训练Scaling”依赖增大模型参数(如从67B→6710B)、增加训练数据,导致计算成本呈指数级增长(如训练一次千亿参数模型需数亿美元),面临边际效益递减;稀疏注意力通过两方面支撑“后训练提效”:

  • 效率提升:将计算复杂度从O(L²)降至亚平方级,使模型在不增大参数的情况下,能处理更长输入(如百万tokens)、输出更长思维链(如长文本推理),为后训练(如强化学习、指令微调)提供效率支撑;
  • 成本可控:DSA等技术降低模型调用与训练成本,使企业可通过“增加后训练迭代步数”(而非增参数)提升模型能力(如DeepSeek-R1-Zero通过更多强化学习步数,AIME精度持续提升),实现“低成本提效”。

2. 对AI产业的长期影响:

  • 技术层面:推动行业从“拼参数规模”转向“拼算法效率”,促进稀疏注意力、强化学习等技术创新,形成“效率驱动”的技术竞争格局;
  • 商业层面:降低大模型研发与应用成本,使AI从“头部企业专属”转向“中小企业可及”,催生更多垂直场景应用(如行业定制化模型);
  • 生态层面:适配国产芯片的特性推动“算法-硬件”协同国产化,减少对海外GPU的依赖,构建自主可控的AI产业生态。
© 版权声明
THE END
如本文“对您有用”,欢迎随意打赏作者!
点赞12打赏作者 分享
评论 抢沙发

    暂无评论内容