国内大模型竞逐MoE技术高地 科大讯飞推出业界首个国产算力训推方案

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   大模型训练的高成本始终是行业痛点,而混合专家模型(MoE)因其“稀疏激活”特性成为降本增效的关...

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

  大模型训练的高成本始终是行业痛点,而混合专家模型(MoE)因其“稀疏激活”特性成为降本增效的关键路径。随着DeepSeek R1开源引爆技术热潮,字节、阿里以及科大讯飞等国内主流大模型企业纷纷加码MoE架构创新,从通信优化到国产算力适配,一场围绕效率与生态的竞逐赛已然展开。

  3月1日,DeepSeek发布了“开源周”后的“彩蛋”,首次公布了模型降本增效的技术细节以及理论上高达545%的利润率。“彩蛋”显示,DeepSeek的671B参数模型在处理每个问题时,实际被激活的专家模型参数仅约37B,算力需求降低至传统架构的约二十分之一。

国内大模型竞逐MoE技术高地 科大讯飞推出业界首个国产算力训推方案

  MoE架构虽然能有效降低算力消耗,但在分布式训练过程中,仍然面临着跨设备通信开销巨大的挑战。有鉴于此,字节跳动豆包大模型团队于3月10日推出了针对MoE架构的通信优化系统COMET。据介绍,该系统采用细粒度计算与通信重叠技术,在大规模MoE模型上实现了单层1.96倍的加速效果,端到端平均效率也提升了1.71倍。

  在这场技术角逐中,另一互联网巨头阿里巴巴也通过开源策略持续扩大声量。3月6日,阿里云发布并开源了全新的推理模型通义千问QwQ-32B。阿里云称,该模型采用密集架构(Dense),尽管参数仅为32B,但性能却能与满血版DeepSeek R1这类混合专家模型(MoE)相媲美。

  诚然,DeepSeek等国产大型模型在算法上实现了诸多引领行业的创新,并且都选择了开源,但它们背后所依赖的仍然是英伟达提供的强大算力。而作为发布国内唯一基于全国产化算力训推大模型的企业,科大讯飞则始终将重心放在国产算力的创新突破上。

  近日,科大讯飞与华为在国产算力领域取得重大进展,双方联合团队率先突破国产算力集群上MoE模型的大规模跨节点专家并行集群推理,这是继DeepSeek公布其MoE模型训练推理方案后,业界首个基于国产算力的全新解决方案。

  通过算子融合、混合并行策略和通信计算并行优化等一系列创新,科大讯飞在国产算力上实现了显著性能提升:单卡静态内存占用缩减至双机部署的1/4,效率提升75%,专家计算密度增加4倍,推理吞吐提升3.2倍,端到端时延降低50%。科大讯飞称,这一解决方案将应用于讯飞星火深度推理模型X1的训练加速,预期训练时推理效率将提升200%。

  从DeepSeek点燃开源之火,到字节、阿里争相技术共享,再到科大讯飞实现国产算力突破,国内MoE赛道已形成“效率迭代”与“自主可控”的双重叙事。开源模式虽对企业直接创收有影响,却能通过生态共建降低研发成本、扩大市场份额;而国产算力突破则关乎技术主权与供应链安全,在AI基础设施竞争白热化的当下,战略意义同样毋庸置疑。

本文来自作者[admin]投稿,不代表吹吹讯立场,如若转载,请注明出处:https://cc199.top/bm/202503_10475.html

(8)

文章推荐

  • 华为昇腾适配支持 DeepSeek-R1 复现项目 Open R1

    IT之家2月11日消息,华为技术有限公司今日宣布,MindSpeed支持DeepSeekV3预训练、微调,同时昇腾还适配支持 DeepSeek-R1复现项目OpenR1。据介绍,MindSpeed现已支持DeepSeekV3模型预训练与微调。所使用的并行配置与模型参数

    2025年02月11日
    30
  • 下周重磅日程:中国科技资产的关键一周

      来源:华尔街见闻赵颖  当周重点关注:美联储公布1月货币政策会议纪要,阿里、百度等中概股财报来袭,马斯克宣布Grok3大模型将发布。此外,中国2月LPR出炉将出炉、苹果发布“最新家族成员”SE4、鸿蒙智行尊界技术发布会、德国提前开始大选。  2月17日至2月23日当周重磅财经事件一览,

    2025年02月16日
    25
  • 珠海华润银行再度“海选”行长 年龄要求75后

      本报记者 熊 悦  时隔近两年,珠海华润银行股份有限公司(以下简称“珠海华润银行”)再度发起行长“招募令”。受访专家认为,市场化选聘高管有助于促进中小银行内部治理结构的优化。  2月14日,珠海华润银行发布的招聘公告显示,该行招聘总行行长1名,并列出多项任职资格和任职条件。早在2023年5月

    2025年02月18日
    24
  • 光大期货:2月24日能源化工日报

      原油:油价阶段承压下行  1、周五油价重心大幅下移,WTI新换4月合约收盘下跌2.08美元至70.4美元/桶,周度跌幅0.45%。布伦特4月合约收盘下跌2.05美元至74.43美元/桶,周度跌幅1.06%。SC2504合约收盘在548.7元/桶。市场正在反复关注俄罗斯原油供应中断风险与

    2025年02月24日
    20
  • 受特朗普贸易政策影响 高盛下调2025年美GDP增长预期

      当地时间3月10日,总台记者获悉,因为美国总统特朗普的贸易政策已被证明比预期更为激进,可能导致物价上涨和金融状况收紧,高盛下调了2025年美国国内生产总值(GDP)增长预期,将美国内生产总值的增长预期从年初的2.4%下调至1.7%。据悉,这是高盛两年半以来首次调低对美国的经济预期。(总台记者张

    2025年03月11日
    11
  • MicroStrategy再度增发500万股优先股 将增持比特币

      当地时间3月18日,MicroStrategy公司发布公告称,将发行500万股永久优先股。  MicroStrategy方面表示,计划把此次发行所获得的净收益用于一般公司用途,其中涵盖收购比特币以及充作营运资金等方面。

    2025年03月19日
    11
  • 山西农业大学怎么样山西农业大学怎么样,就业前景如何

    山西农业大学到底怎么样1、山西农业大学,作为中国著名的高等农业学府,它在教育领域占据着重要地位。这所大学不仅获得教育部本科教学评估的优秀评价,还是山西省政府与农业农村部共建的高校。此外,山西农业大学还是全国首批深化创新创业教育改革示范高校之一,也是国家中西部基础能力建设项目的入选高校。2、综上所述

    2025年04月08日
    6
  • “几乎每个关键零部件都能快速匹配” 深圳具身智能生态先行一步

      21世纪经济报道记者杨坪深圳报道  人形机器人迈着矫健的步伐在深交所大楼内跑圈,“它”的旁边,另一名人形机器人蹲在吧台前,熟练地将手里的饮料投递到购物筐中……  这是在深圳具身智能产业化发展座谈会上真实发生的一幕。当参会者举起手机记录这科幻感十足的一幕时,深圳智能生态的未来图景已悄然展开

    2025年04月12日
    4
  • 002287股票002821股票

    002287股票行情及走势分析1、7股票的行情及走势分析是投资者制定投资策略的重要依据。通过观察股票的行情和走势,投资者可以判断股票的投资价值和趋势。然而,股票市场具有风险性,投资者在做出决策时应谨慎行事,并充分了解投资产品的特点和风险。在进行股票投资时,建议投资者结合多种分析方法,综合评估股票的

    2025年04月15日
    3
  • Lucid称其有望于明年进军中型电动SUV市场

      Lucid汽车公司的高管们周二表示,Lucid有望在2026年推出其中型电动SUV,这家电动汽车制造商正寻求进军一个竞争日益激烈的细分市场,该市场目前由竞争对手特斯拉的畅销车型ModelY跨界车主导。  Lucid高级副总裁德里克・詹金斯表示:“世界上有很多不可预测的事情可能会影响

    2025年04月16日
    1

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年03月13日

    我是吹吹讯的签约作者“admin”!

  • admin
    admin 2025年03月13日

    希望本篇文章《国内大模型竞逐MoE技术高地 科大讯飞推出业界首个国产算力训推方案》能对你有所帮助!

  • admin
    admin 2025年03月13日

    本站[吹吹讯]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年03月13日

    本文概览:  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   大模型训练的高成本始终是行业痛点,而混合专家模型(MoE)因其“稀疏激活”特性成为降本增效的关...

    联系我们

    邮件:吹吹讯@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们