太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

DeepSeek 发布了最新的研究成果——原生稀疏注意力。这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率。...

DeepSeek 发布了最新的研究成果——原生稀疏注意力。这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率。

太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

就在马斯克发布grok3,sam altman 还在犹豫要不要开源时,刚刚梁文锋作为co-authors携deepseek研究团队丢出重磅研究论文成果,DeepSeek 发布了最新的研究成果——原生稀疏注意力(Native Sparse Attention, NSA)! 这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率,可谓是 LLM 领域又一里程碑式的进展!

太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

简单来说,论文的核心贡献如下:

LLM 长文本能力再突破!DeepSeek 发布原生稀疏注意力 NSA:硬件友好又高效,训推一体化!

废话不多说,我们一起来扒一扒这篇论文:

先了解一下论文的背景

近年来,我们见证了长文本建模在 AI 领域的重要性日益凸显。无论是深度推理、代码库生成、还是多轮对话,都离不开模型对长序列信息的有效处理能力。像 OpenAI 的 o-series 模型、DeepSeek-R1、以及 Google Gemini 1.5 Pro 等,都展现了处理超长文本的强大潜力。

然而,传统 Attention 机制的计算复杂度随着序列长度的增加而呈平方级增长,这成为了制约 LLM 发展的关键瓶颈。计算成本高昂,延迟成为问题, 如何在保证模型性能的同时,提升长文本处理的效率,成为了亟待解决的难题

稀疏注意力应运而生,它被认为是提升效率,同时维持模型能力的有希望的方向。DeepSeek 的 NSA 技术正是在这个方向上迈出了重要一步!

DeepSeek NSA:原生稀疏注意力,训推一体化,硬件友好

DeepSeek 提出的 NSA (Native Sparse Attention,原生稀疏注意力) 机制,巧妙地将算法创新与硬件优化相结合,旨在实现高效的长文本建模。

NSA 的核心亮点可以概括为以下两点:

1.动态分层稀疏策略: NSA 采用了一种动态分层的稀疏策略,结合了粗粒度的 Token 压缩 和 细粒度的 Token 选择。这种策略既能保证模型对全局上下文的感知,又能兼顾局部信息的精确性

2.两大关键创新:

算术强度平衡的算法设计与硬件优化: NSA 通过精巧的算法设计,并针对现代硬件进行了实现优化,显著提升了计算速度

端到端可训练: NSA 支持端到端训练,这意味着它不仅在推理阶段高效,还能减少预训练的计算量,同时不牺牲模型性能!

太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

实验效果惊艳:性能不降反升,速度大幅提升!

实验结果令人振奋!如图 1 所示,在通用基准测试、长文本任务和指令推理方面,使用 NSA 预训练的模型性能不仅没有下降,反而超越了 Full Attention 模型!

更重要的是,在处理 64k 长度的序列时,NSA 在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升,最高可达 11.6 倍! 这充分证明了 NSA 在模型生命周期各个阶段的效率优势

太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

现有稀疏注意力方法的局限性

论文也深入分析了现有稀疏注意力方法的局限性,主要体现在两个方面:

1.推理效率的“假象”: 很多方法虽然在理论上实现了稀疏计算,但在实际推理延迟方面提升有限。这主要是因为:

• 阶段限制的稀疏性: 例如,有些方法只在自回归解码时应用稀疏性,但在预填充阶段仍然需要大量计算

• 与先进 Attention 架构的不兼容性: 一些稀疏注意力方法难以适配像 MQA 和 GQA 这样的现代高效解码架构,导致内存访问瓶颈依然存在

2.可训练稀疏性的“神话”: 许多方法主要关注推理阶段的稀疏性,而忽略了训练阶段。这导致:

• 性能退化: 后验应用稀疏性可能导致模型偏离预训练的优化轨迹。

• 训练效率需求: 长序列训练对于提升模型能力至关重要,但现有方法在训练效率方面存在不足。

• 不可训练的组件: 一些方法引入了不可微的离散操作,阻碍了梯度传播,限制了模型学习最佳稀疏模式的能力。

• 反向传播效率低下: 一些理论上可训练的方法,在实际训练中效率低下,例如 Token 粒度的选择策略可能导致非连续的内存访问,影响硬件利用率。

NSA 的核心组件:分层稀疏,逐层优化

为了克服上述局限性,NSA 架构采用了分层 Token 建模,并通过三个并行的注意力分支处理输入序列:

1. 压缩注意力 (Compressed Attention): 处理粗粒度的模式,通过压缩 Token 块来捕获全局信息。

2. 选择注意力 (Selected Attention): 处理重要的 Token 块,选择性地保留细粒度的信息。

3. 滑动窗口注意力 (Sliding Window Attention): 处理局部上下文信息。

这三个分支的输出通过一个门控机制进行聚合。为了最大化效率,NSA 还专门设计了硬件优化的 Kernel

太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI

写在最后:

DeepSeek 的 NSA 技术为长文本建模带来了新的突破。它不仅在性能上超越了传统的 Full Attention 模型,更在效率方面实现了显著的提升,尤其是在长序列场景下。NSA 的 硬件友好设计 和 训推一体化特性,使其在实际应用中更具优势,有望加速下一代 LLM 在长文本处理领域的应用落地。

这项研究无疑为稀疏注意力领域带来了新的思路和方向。未来,我们期待看到更多基于 NSA 技术的创新应用,共同推动 AI 技术的进步!

最后不得不在强调一下,梁文锋不仅是deepseek ceo,很明显他还在研究的最前沿参与研究,这是令我最震撼的,他不仅有管理能力,而且还真正的懂AI,deepseek前途无量

各路网友都在喊,这才是真正的OpenAI。

来源:AI寒武纪,原文标题:《太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI》

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

本文来自作者[admin]投稿,不代表吹吹讯立场,如若转载,请注明出处:https://cc199.top/bm/202502_5432.html

(21)

文章推荐

  • Robinhood加速全球扩张 计划2025年在新加坡推出加密货币服务

    据报道,Robinhood(HOOD.US)计划于2025年通过其收购的欧洲数字资产交易所Bitstamp在新加坡推出加密产品。Robinhood副总裁兼总经理JohannKerbrat表示,Robinhood去年6月同意收购Bitstamp的部分原因是其在新加坡的牌照以及机构业务。去年,Bit

    2025年02月19日
    23
  • “你上周做了什么” 马斯克周末邮件突袭联邦雇员致政府遭诉讼

      马斯克周末发送电邮要求联邦雇员汇报工作成果,否则将被解雇。联邦雇员就此起诉政府。   这些员工表示,没有规定或程序要求他们向人事管理办公室(OPM)提供此类报告。他们还称并非所有联邦机构都指示其员工遵守这封邮件的要求。  “至少一些联邦机构,包括联邦调查局(FBI),开始指示员工不要回应OP

    2025年02月25日
    21
  • 德商银行:特朗普贸易和经济政策计划正开始损害美元地位

      德商银行外汇分析师AntjePraefcke在一份报告中称,特朗普总统的贸易和经济政策计划正开始对美元造成损害。  Praefcke表示,市场已经到了认为特朗普“做得过头”的地步。  Praefcke还指出,特朗普做决策时“明显的随意性”让市场感到不安。  Praefcke表示,这种

    2025年03月05日
    10
  • 去年营收和净利双降、出售资产偿债,瑞安“安全”了吗

    “经过两三年的调整,房地产市场现在应该已经筑底,并稳步向好。”瑞安集团创始人、主席罗康瑞在瑞安房地产业绩会上表示。近日,瑞安房地产对外披露了2024年业绩报告。财报显示,期内公司实现营业收入81.73亿元,同比下降16%;实现净利润8.1亿元,同比下降42%;股东应占溢利为1.8亿元,同比下降78

    2025年04月02日
    6
  • “史诗级”暴跌!纳指跌近6%进入技术性熊市,全球市场避险情绪急剧升温

      炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!  美东时间4月4日周五,美股收盘暴跌,这是其连续第二天遭受重创。纳斯达克综合指数进入技术性熊市,道琼斯工业平均指数进入修正区间。全球金融市场受到波及,欧洲三大股指收盘全线大跌,能源和贵金属板块亦遭受重挫。  美联储主席

    2025年04月05日
    4
  • 移动流量卡全国无限流量19元(中国移动无套路)

    很多用户办理手机卡,基本都选择就近的营业厅,因为全国各地很多地方都有营业厅,而大家不明白的是,所谓的营业厅也是那些通过加盟的方式入驻的,然后三大运营商给他们补贴,起初补贴非常可观,现在没那么多,很多原本开营业厅的老板都转行了,因为现在电商平台发达,网友们看到了网上电商平台往往有更实惠的套餐推出,因为

    2025年04月06日
    4
  • 贝尔定律(惊人的5秒法则)

    作者:洞见·Elm此时就是一切,此刻就是永远。心理学家梅尔·罗宾斯在大学时懒散拖沓,甚至因为拖欠学科论文,几次收到退学警告。为了顺利毕业,梅尔决定每天6点去图书馆补写论文。然而每当闹钟响起,她脑海总会浮现各种不起床的理由:昨晚失眠、身体不好、早上还有其他事……直到有天,她看到火箭发射时的转播录像,当

    2025年04月07日
    4
  • 东风裕隆纳智捷大7东风裕隆纳智捷大7参数配置

    纳智捷大7停产了吗?尽管纳智捷大7SUV已停产,但它并未完全消失。在汽车行业,停产的车型有时以新面貌重返市场。因此,我们仍有希望见到纳智捷大7SUV的再度亮相。总结而言,纳智捷大7SUV的停产虽令人遗憾,但对企业而言,这是正常的商业决策。我们期待纳智捷未来能推出更多优秀车型,继续满足消费者的

    2025年04月10日
    4
  • 北方股份股票北方股份股票多少

    北方股份是深市还是沪市北方股份是沪市。以下是关于沪市和深市的详细解释,以便更好地理解这一答案:沪市与深市的定义及地点沪市:即上海证券交易所,位于中国上海。沪市主板的股票代码以600开头,B股代码以900开头,科创板代码以688开头。上海证券交易所主要是规模较大的公司上市的地方。北方股份是沪市。以

    2025年04月10日
    2
  • 上海证实新冠检出确有增加上海检测出新冠病毒

    上海高频次大规模核酸检测的意义在哪里?所以反复检测可以增加阳性检出概率,及时发现阳性。同时,由于呼吸道病原体主要通过咽拭子、鼻拭子和鼻+咽拭子采样,采样过程中不可避免地存在一些采样差异。因此,重复取样检测可以弥补取样误差造成的假阴性效应。高频次做核酸检测是必要性的,因为这样可以筛选出更多的阳性病例

    2025年04月12日
    4

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年02月18日

    我是吹吹讯的签约作者“admin”!

  • admin
    admin 2025年02月18日

    希望本篇文章《太震撼了!梁文锋携DeepSeek团队丢出注意力新机制重磅论文,网友:这才是真正的OpenAI》能对你有所帮助!

  • admin
    admin 2025年02月18日

    本站[吹吹讯]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年02月18日

    本文概览:DeepSeek 发布了最新的研究成果——原生稀疏注意力。这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率。...

    联系我们

    邮件:吹吹讯@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们