李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

专题:DeepSeek为何能震动全球AI圈   《科创板日报》2月6日讯 (记者 毛明江 黄心怡)今日一则关于人工智能领域的新闻引发广泛关注。   据报道,李飞飞等斯坦福大学和...

专题:DeepSeek为何能震动全球AI圈

  《科创板日报》2月6日讯 (记者 毛明江 黄心怡)今日一则关于人工智能领域的新闻引发广泛关注。

  据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

  这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

  《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

  ▍通义模型的“基座”作用

  根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

  青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

  国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。”

李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

  ###斯坦福s1论文原文也注明模型是以阿里通义千问模型为基础微调

  谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。

李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型

  ###国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

  “以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。 ” 谢伟迪说。

  ▍低成本训练大模型有局限,但也是方向

  尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

  首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

  其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

  此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

  尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

  武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。

  (科创板日报记者 黄心怡)

本文来自作者[admin]投稿,不代表吹吹讯立场,如若转载,请注明出处:https://cc199.top/bm/202502_2843.html

(20)

文章推荐

  • 飞猪:春节假期前两天出游订单量快速攀升,多地门票、租车、线路游翻倍增长

      1月29日,春节假期进入第二天。据文化和旅游部与中国气象局联合发布的旅游气象提示,春节假日期间全国大部气象条件整体出游,华南地区、华东南部、华中南部及西南地区南部气候舒适度整体可达舒适等级。  美好假期叠加好天气,全民出游热情高涨。来自飞猪的数据显示,春节假期前两天出游订单量持续攀升。境内游方

    2025年01月29日
    27
  • 永泰能源:终止发行股份购买资产

    上证报中国证券网讯(记者骆民)永泰能源公告,公司原拟通过发行股份方式购买山西昕益能源集团有限公司持有的山西灵石昕益天悦煤业有限公司51.0095%股权,本次发行价格拟定为1.29元/股。因外部市场环境发生变化,公司与交易对方未能就本次交易对价方式及发行价格最终达成一致意见,经公司董事会审慎研究,并

    2025年02月07日
    24
  • 祥源文旅虚假陈述案推进 受损股民可索赔

      近日,投资者诉浙江祥源文旅(维权)股份有限公司(简称:祥源文旅,证券代码:600576)证券虚假陈述案持续推进,曾代理投资者告赢100余家上市公司并获赔的浙江裕丰律师事务所厉健律师(证号:13301200210145176)表示,根据处罚决定,祥源文旅等涉嫌证券虚假陈述,受损投资者可依法索赔。(

    2025年02月08日
    26
  • CB乡村店盘中异动 股价大跌5.00%

    北京时间2025年02月13日03时02分,CB乡村店(CBRL.us)股票出现波动,股价快速跳水5.00%。截至发稿,该股报49.82美元/股,成交量23.8905万股,换手率1.07%,振幅3.87%。最近的财报数据显示,该股实现营业收入8.45亿美元,净利润4.84百万美元,每股收益0.22

    2025年02月13日
    21
  • 3月10日保险日报丨险资“解锁”AIC股权投资,长护险全面落地提速,险企春招复合型及AI技术人才需求大

      险资“解锁”AIC股权投资支持实体经济再添新路径  为更好发挥股权投资对科技创新和民营企业发展的支持作用,近日,国家金融监督管理总局发布《关于进一步扩大金融资产投资公司股权投资试点的通知》,明确支持保险资金参与金融资产投资公司(AIC)股权投资试点。  受访专家表示,险资参与AIC股权投资

    2025年03月10日
    11
  • 达利欧与美众议院预算委员会共和党人会谈,警告债务形势严峻

      来源:华尔街见闻  达利欧警告称,美国赤字上升的危险正在加剧,并敦促他们将预算赤字削减到美国GDP的3%以内,否则偿债成本将挤压政府支出。根据美国国会预算办公室(CBO)的数据,2024财年美国预算赤字占到了GDP的6.6%,远高于达利欧提到的3%。  桥水基金联合创始人达利欧与美国众议院预

    2025年03月26日
    9
  • 天津新增1例本土阳性感染者天津新增一例本土新冠肺炎确诊病例

    姜大美判了11年刑是什么罪1、目前,已致使26人被感染,31个区域被划定为疫情风险区,3000多人被隔离管控。姜某某的行为违反了相关法律法规,公安机关已开展调查,依法追究其法律责任;市场监管部门拟对姜大美女装工作室(天津市滨海新区怡然服装商行)给予注销营业执照处理;对姜某某个人将给予罚款处罚。天津

    2025年04月06日
    3
  • 望子成龙的意思(世界上有一副最短的对联)

    上联:色难下联:容易“色难”一语,出自《论语·为政》:“子夏问孝,子曰:‘色难。’”意思是子女侍奉父母,要经常保持和颜悦色,是件很难的事。“容易”,见于西汉《非有先生论》:“於戏!可乎哉?可乎哉?谈何容易!今则不然,反以为诽谤君之行,无人臣之礼,果纷然伤于身,蒙不幸之名,戮及先人,为天下笑,故曰谈何

    2025年04月10日
    5
  • 郑州最新封控区域图郑州最新封控区域图高清

    郑州管控区和封控区地图翠微路以东、郑登快速路以西、人和路以南、华韦路以北区域。王寨河村界以东、郑登快速路以西、华韦路以南、C031村道以北区域。郑登快速路以东、庙后组以西、C011村道以南、翟沟村界以北区域。自2022年5月26日起,恢复开通省内班线客运、包车客运(含旅游),发生本土疫情的地市除外

    2025年04月11日
    4
  • 美国这一关键商业领域拥有巨额贸易顺差,但其就业岗位在贸易战中岌岌可危

      当白宫代表美国制造业发动贸易战时,美国经济中规模最大、最重要的部分——一个拥有贸易顺差而非逆差的领域——正面临威胁。  在美国关于关税的争论中,由美国消费者和企业进口商品多于出口商品所导致的贸易逆差受到了所有关注。  但实际上,我们出口的服务远远多于从其他国家进口的服务。这意味着美

    2025年04月14日
    4

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年02月07日

    我是吹吹讯的签约作者“admin”!

  • admin
    admin 2025年02月07日

    希望本篇文章《李飞飞团队“50美元”复现DeepSeek R1真相:基座为阿里云Qwen模型》能对你有所帮助!

  • admin
    admin 2025年02月07日

    本站[吹吹讯]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年02月07日

    本文概览:专题:DeepSeek为何能震动全球AI圈   《科创板日报》2月6日讯 (记者 毛明江 黄心怡)今日一则关于人工智能领域的新闻引发广泛关注。   据报道,李飞飞等斯坦福大学和...

    联系我们

    邮件:吹吹讯@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们