太震撼了！梁文锋携DeepSeek团队丢出注意力新机制重磅论文，网友：这才是真正的OpenAI

admin • 2025年02月18日 21:33 • 每日资讯 • 阅读 21

DeepSeek 发布了最新的研究成果——原生稀疏注意力。这项技术有望大幅提升下一代大语言模型处理长文本的能力，同时还能兼顾效率。...

DeepSeek 发布了最新的研究成果——原生稀疏注意力。这项技术有望大幅提升下一代大语言模型处理长文本的能力，同时还能兼顾效率。

就在马斯克发布grok3，sam altman 还在犹豫要不要开源时，刚刚梁文锋作为co-authors携deepseek研究团队丢出重磅研究论文成果，DeepSeek 发布了最新的研究成果——原生稀疏注意力（Native Sparse Attention, NSA）！这项技术有望大幅提升下一代大语言模型处理长文本的能力，同时还能兼顾效率，可谓是 LLM 领域又一里程碑式的进展！

简单来说，论文的核心贡献如下：

LLM 长文本能力再突破！DeepSeek 发布原生稀疏注意力 NSA：硬件友好又高效，训推一体化！

废话不多说，我们一起来扒一扒这篇论文：

先了解一下论文的背景

近年来，我们见证了长文本建模在 AI 领域的重要性日益凸显。无论是深度推理、代码库生成、还是多轮对话，都离不开模型对长序列信息的有效处理能力。像 OpenAI 的 o-series 模型、DeepSeek-R1、以及 Google Gemini 1.5 Pro 等，都展现了处理超长文本的强大潜力。

然而，传统 Attention 机制的计算复杂度随着序列长度的增加而呈平方级增长，这成为了制约 LLM 发展的关键瓶颈。计算成本高昂，延迟成为问题，如何在保证模型性能的同时，提升长文本处理的效率，成为了亟待解决的难题

稀疏注意力应运而生，它被认为是提升效率，同时维持模型能力的有希望的方向。DeepSeek 的 NSA 技术正是在这个方向上迈出了重要一步！

DeepSeek NSA：原生稀疏注意力，训推一体化，硬件友好

DeepSeek 提出的 NSA (Native Sparse Attention，原生稀疏注意力) 机制，巧妙地将算法创新与硬件优化相结合，旨在实现高效的长文本建模。

NSA 的核心亮点可以概括为以下两点：

1.动态分层稀疏策略： NSA 采用了一种动态分层的稀疏策略，结合了粗粒度的 Token 压缩和细粒度的 Token 选择。这种策略既能保证模型对全局上下文的感知，又能兼顾局部信息的精确性

2.两大关键创新：

算术强度平衡的算法设计与硬件优化： NSA 通过精巧的算法设计，并针对现代硬件进行了实现优化，显著提升了计算速度

端到端可训练： NSA 支持端到端训练，这意味着它不仅在推理阶段高效，还能减少预训练的计算量，同时不牺牲模型性能！

实验效果惊艳：性能不降反升，速度大幅提升！

实验结果令人振奋！如图 1 所示，在通用基准测试、长文本任务和指令推理方面，使用 NSA 预训练的模型性能不仅没有下降，反而超越了 Full Attention 模型！

更重要的是，在处理 64k 长度的序列时，NSA 在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升，最高可达 11.6 倍！这充分证明了 NSA 在模型生命周期各个阶段的效率优势

现有稀疏注意力方法的局限性

论文也深入分析了现有稀疏注意力方法的局限性，主要体现在两个方面：

1.推理效率的“假象”：很多方法虽然在理论上实现了稀疏计算，但在实际推理延迟方面提升有限。这主要是因为：

• 阶段限制的稀疏性：例如，有些方法只在自回归解码时应用稀疏性，但在预填充阶段仍然需要大量计算

• 与先进 Attention 架构的不兼容性：一些稀疏注意力方法难以适配像 MQA 和 GQA 这样的现代高效解码架构，导致内存访问瓶颈依然存在

2.可训练稀疏性的“神话”：许多方法主要关注推理阶段的稀疏性，而忽略了训练阶段。这导致：

• 性能退化：后验应用稀疏性可能导致模型偏离预训练的优化轨迹。

• 训练效率需求：长序列训练对于提升模型能力至关重要，但现有方法在训练效率方面存在不足。

• 不可训练的组件：一些方法引入了不可微的离散操作，阻碍了梯度传播，限制了模型学习最佳稀疏模式的能力。

• 反向传播效率低下：一些理论上可训练的方法，在实际训练中效率低下，例如 Token 粒度的选择策略可能导致非连续的内存访问，影响硬件利用率。

NSA 的核心组件：分层稀疏，逐层优化

为了克服上述局限性，NSA 架构采用了分层 Token 建模，并通过三个并行的注意力分支处理输入序列：

1. 压缩注意力 (Compressed Attention)：处理粗粒度的模式，通过压缩 Token 块来捕获全局信息。

2. 选择注意力 (Selected Attention)：处理重要的 Token 块，选择性地保留细粒度的信息。

3. 滑动窗口注意力 (Sliding Window Attention)：处理局部上下文信息。

这三个分支的输出通过一个门控机制进行聚合。为了最大化效率，NSA 还专门设计了硬件优化的 Kernel

写在最后：

DeepSeek 的 NSA 技术为长文本建模带来了新的突破。它不仅在性能上超越了传统的 Full Attention 模型，更在效率方面实现了显著的提升，尤其是在长序列场景下。NSA 的硬件友好设计和训推一体化特性，使其在实际应用中更具优势，有望加速下一代 LLM 在长文本处理领域的应用落地。

这项研究无疑为稀疏注意力领域带来了新的思路和方向。未来，我们期待看到更多基于 NSA 技术的创新应用，共同推动 AI 技术的进步！

最后不得不在强调一下，梁文锋不仅是deepseek ceo，很明显他还在研究的最前沿参与研究，这是令我最震撼的，他不仅有管理能力，而且还真正的懂AI，deepseek前途无量

各路网友都在喊，这才是真正的OpenAI。

来源：AI寒武纪，原文标题：《太震撼了！梁文锋携DeepSeek团队丢出注意力新机制重磅论文，网友：这才是真正的OpenAI》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

本文来自作者[admin]投稿，不代表吹吹讯立场，如若转载，请注明出处：https://cc199.top/bm/202502_5432.html

21 4

本文作者

admin签约作者

22804 文章

190589 评论

1 粉丝

我是吹吹讯的签约作者[admin],本篇文章《太震撼了！梁文锋携DeepSeek团队丢出注意力新机制重磅论文，网友：这才是真正的OpenAI》主要讲述了:DeepSeek 发布了最新的研究成果——原生稀疏注意力。这项技术有望大幅提升下一代大语言模型处理长文本的能力，同时还能兼顾效率。...

今日知识

Robinhood加速全球扩张计划2025年在新加坡推出加密货币服务

据报道，Robinhood(HOOD.US)计划于2025年通过其收购的欧洲数字资产交易所Bitstamp在新加坡推出加密产品。Robinhood副总裁兼总经理JohannKerbrat表示，Robinhood去年6月同意收购Bitstamp的部分原因是其在新加坡的牌照以及机构业务。去年，Bit

admin
2025年02月19日
23
今日知识

“你上周做了什么” 马斯克周末邮件突袭联邦雇员致政府遭诉讼

　　马斯克周末发送电邮要求联邦雇员汇报工作成果，否则将被解雇。联邦雇员就此起诉政府。　　这些员工表示，没有规定或程序要求他们向人事管理办公室（OPM）提供此类报告。他们还称并非所有联邦机构都指示其员工遵守这封邮件的要求。　　“至少一些联邦机构，包括联邦调查局（FBI），开始指示员工不要回应OP

admin
2025年02月25日
21
生活常识

德商银行：特朗普贸易和经济政策计划正开始损害美元地位

　　德商银行外汇分析师AntjePraefcke在一份报告中称，特朗普总统的贸易和经济政策计划正开始对美元造成损害。　　Praefcke表示，市场已经到了认为特朗普“做得过头”的地步。　　Praefcke还指出，特朗普做决策时“明显的随意性”让市场感到不安。　　Praefcke表示，这种

admin
2025年03月05日
10
生活常识

去年营收和净利双降、出售资产偿债，瑞安“安全”了吗

“经过两三年的调整，房地产市场现在应该已经筑底，并稳步向好。”瑞安集团创始人、主席罗康瑞在瑞安房地产业绩会上表示。近日，瑞安房地产对外披露了2024年业绩报告。财报显示，期内公司实现营业收入81.73亿元，同比下降16%；实现净利润8.1亿元，同比下降42%；股东应占溢利为1.8亿元，同比下降78

admin
2025年04月02日
6
每日资讯

“史诗级”暴跌！纳指跌近6%进入技术性熊市，全球市场避险情绪急剧升温

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！　　美东时间4月4日周五，美股收盘暴跌，这是其连续第二天遭受重创。纳斯达克综合指数进入技术性熊市，道琼斯工业平均指数进入修正区间。全球金融市场受到波及，欧洲三大股指收盘全线大跌，能源和贵金属板块亦遭受重挫。　　美联储主席

admin
2025年04月05日
4
生活常识

移动流量卡全国无限流量19元（中国移动无套路）

很多用户办理手机卡，基本都选择就近的营业厅，因为全国各地很多地方都有营业厅，而大家不明白的是，所谓的营业厅也是那些通过加盟的方式入驻的，然后三大运营商给他们补贴，起初补贴非常可观，现在没那么多，很多原本开营业厅的老板都转行了，因为现在电商平台发达，网友们看到了网上电商平台往往有更实惠的套餐推出，因为

admin
2025年04月06日
4
生活常识

贝尔定律（惊人的5秒法则）

作者：洞见·Elm此时就是一切，此刻就是永远。心理学家梅尔·罗宾斯在大学时懒散拖沓，甚至因为拖欠学科论文，几次收到退学警告。为了顺利毕业，梅尔决定每天6点去图书馆补写论文。然而每当闹钟响起，她脑海总会浮现各种不起床的理由：昨晚失眠、身体不好、早上还有其他事……直到有天，她看到火箭发射时的转播录像，当

admin
2025年04月07日
4
今日知识

东风裕隆纳智捷大7东风裕隆纳智捷大7参数配置

纳智捷大7停产了吗?尽管纳智捷大7SUV已停产，但它并未完全消失。在汽车行业，停产的车型有时以新面貌重返市场。因此，我们仍有希望见到纳智捷大7SUV的再度亮相。总结而言，纳智捷大7SUV的停产虽令人遗憾，但对企业而言，这是正常的商业决策。我们期待纳智捷未来能推出更多优秀车型，继续满足消费者的

admin
2025年04月10日
4
今日知识

北方股份股票北方股份股票多少

北方股份是深市还是沪市北方股份是沪市。以下是关于沪市和深市的详细解释，以便更好地理解这一答案：沪市与深市的定义及地点沪市：即上海证券交易所，位于中国上海。沪市主板的股票代码以600开头，B股代码以900开头，科创板代码以688开头。上海证券交易所主要是规模较大的公司上市的地方。北方股份是沪市。以

admin
2025年04月10日
2
每日资讯

上海证实新冠检出确有增加上海检测出新冠病毒

上海高频次大规模核酸检测的意义在哪里?所以反复检测可以增加阳性检出概率，及时发现阳性。同时，由于呼吸道病原体主要通过咽拭子、鼻拭子和鼻+咽拭子采样，采样过程中不可避免地存在一些采样差异。因此，重复取样检测可以弥补取样误差造成的假阴性效应。高频次做核酸检测是必要性的，因为这样可以筛选出更多的阳性病例

admin
2025年04月12日
4

发表回复

本站作者后才能评论

评论列表（4条）

admin 2025年02月18日

我是吹吹讯的签约作者“admin”！

回复
admin 2025年02月18日

希望本篇文章《太震撼了！梁文锋携DeepSeek团队丢出注意力新机制重磅论文，网友：这才是真正的OpenAI》能对你有所帮助！

回复
admin 2025年02月18日

本站[吹吹讯]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
admin 2025年02月18日

本文概览：DeepSeek 发布了最新的研究成果——原生稀疏注意力。这项技术有望大幅提升下一代大语言模型处理长文本的能力，同时还能兼顾效率。...

回复

太震撼了！梁文锋携DeepSeek团队丢出注意力新机制重磅论文，网友：这才是真正的OpenAI

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们