禅世界论坛

<- 社交账号登录。或禅世界会员登录【论坛使用帮助】
"东方神秘力量":爆火国产AI大模型背...
 
Notifications
Clear all

"东方神秘力量":爆火国产AI大模型背后的年轻人

4
1 Users
0 Reactions
572 查看
Many
 Many
(@many)
Illustrious Member Admin Registered
已加入: 9 年 前
帖子: 12343
Topic starter  

"东方神秘力量":爆火国产AI大模型背后的年轻人

文章来源: 南刊  2025-01-22
 
 

 

"东方神秘力量":爆火国产AI大模型背后的年轻人

2024年岁末,DeepSeek-V3大模型发布,迅速成为全球人工智能(AI)领域的焦点,刷屏科技圈,很多人化身“自来水”,在各大社交媒体、科技论坛上发帖讨论,不吝溢美之词。

在全球范围内的行业基准测试中,DeepSeek-V3达到与Llama 3(开源大模型标杆,由扎克伯格的Meta公司开发)、GPT-4o(OpenAI大模型)相当的水平,闯入了多个AI大模型排行榜单前列。聊天机器人竞技场(Chatbot Arena)最新数据显示,DeepSeek-V3位列开源模型榜第一,在全模型榜单里排名第七,也是中国模型中排名最高的。更令人诧异的是,DeepSeek-V3模型训练所消耗的算力,只有Llama的1/11。

DeepSeek-V3轰动AI圈,背后的中国公司深度求索(DeepSeek)也“浮出水面”。硅谷同行称其为“东方神秘力量”,对DeepSeek团队表现出浓厚的兴趣。而在国内,“雷军千万年薪挖角DeepSeek研究员罗福莉”的话题也上了社交平台热搜。

不管是AI圈,还是“吃瓜群众”,都在好奇,DeepSeek-V3大模型的背后,到底是一支什么样的团队?

​​​​​​​

走出校园不久的年轻人

2024年12月底,有媒体报道,雷军以千万年薪招揽一名“天才AI少女”来领导小米的AI大模型团队。这位95后“少女”名叫罗福莉,过去两年供职于DeepSeek团队,曾参与DeepSeek大模型的关键研发。

罗福莉在北京大学读计算语言学硕士期间,曾因在ACL(国际计算语言学协会)学术会议上发表多篇论文而受到关注。毕业后,她进入阿里巴巴达摩院,从事预训练语言模型相关的工作。2022年加入深度求索母公司幻方量化,之后成为DeepSeek大模型项目成员。

DeepSeek-v3的出现,让很多人以为,DeepSeek团队必然有“大牛”坐镇。但罗福莉走红却让外界发现,真正的“大牛”是那些像她一样的年轻人。

▲罗福莉 图/罗福莉个人公众号

2023年5月,DeepSeek-V2发布,相比于国内外主流大模型,大幅减少了计算量和推理显存,一问世就备受关注。做出这一突破性创新的,是年轻的高华佐和曾旺丁等人。

两人都刚从学校出来没几年。高华佐来自广东,2012年在华南师范大学附属中学就读时,曾获第29届全国中学生物理竞赛一等奖,并于次年保送至北京大学物理学院学习。曾旺丁来自湖南省新化县,2017年至2023年就读于北京邮电大学人工智能学院,硕士期间主要学习人工智能方向,导师为张洪刚,2018年曾获全国大学生数学竞赛(非数学类)二等奖。

DeepSeek大模型的另一大突破,是通过一种名为GRPO的算法,创新训练方法,大大降低了成本。其中的主角,依然是这些看似缺少经验的年轻人。

 



核心成员之一邵智宏此前是清华大学交互式人工智能(CoAI)课题组博士生,主要研究自然语言处理、深度学习,对构建稳健且可扩展的AI系统有着独特见解。他曾服务于微软研究院,加入DeepSeek团队之后,参与了多个重要项目的研发,包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。

GRPO算法创新的另一重要贡献者是朱琪豪。这位北京大学计算机学院2024届的博士毕业生,专注于深度代码学习研究。在校期间,他展现了惊人的学术能力,发表CCF(中国计算机学会)-A类论文16篇,获得了软件工程领域顶级会议(ESEC/FSE)杰出论文奖。他的博士论文《语言定义感知的深度代码学习技术及应用》入选了2024CCF软件工程专业委员会博士学位论文激励计划。他在DeepSeek团队最重要的工作,正是基于自己的博士论文,主导开发DeepSeek大模型的一个关键项目。

他的同学代达劢则在更早的时候加入这个团队,参与了DeepSeek大模型从V1到V3每一代的研发,已经是元老级研发人员,也在学生时代获得多项论文奖。

▲朱琪豪 图/北京大学计算机学院公众号

▲代达劢 图/北京大学计算机学院公众号

负责DeepSeek大模型训练及推理基础架构的,是同样刚毕业的工程师赵成钢。加入DeepSeek之前,他曾在英伟达公司实习。赵成钢在学生时代就取得过令人艳羡的成绩。在河北衡水中学就读时,他是信息学竞赛班成员,2016年获得全国青少年信息学奥林匹克竞赛银牌。在清华大学读大二时,他成为学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。



DeepSeek团队规模并不大,不到140人,工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,鲜有“海归”,而且工作时间都不长,不少还是在读博士。即便是团队的管理者,也非常年轻。

吴俣是DeepSeek后训练团队的负责人,在进入深度求索之前,只有4年工作经验。他曾在微软亚洲研究院工作,参与了小冰(AI聊天机器人)和必应百科项目。他是北京航空航天大学计算机学院2019届博士。

“我们的核心技术岗位,基本以应届和毕业一两年的人为主。”深度求索创始人梁文锋此前向媒体表示,做一件长期的事,经验其实没那么重要,相比之下基础能力、创造性和热爱等更重要。因此,在组建DeepSeek团队时,他招人的原则是“看能力,而不是看经验”。他认为,或许目前世界排名前50的顶尖AI人才还不在中国,“但我们能自己打造这样的人。”

而这些一边搞研发一边写论文的年轻人,也一次又一次带给他惊喜。

便宜的大模型

DeepSeek大模型发布之后,便如同一头年轻的野兽,冲入公众视野,搅动整个AI圈。

2024年5月,Deepseek-V2推出后,不仅一鸣惊人,还掀起了一场AI大模型价格战。这款开源模型的推理成本仅为每百万Token(词元,语言模型中用数字来表示单词的最小语义单位,一个汉字约等于两个词元)1元人民币,只有Llama 3的1/7,GPT-4 Turbo(OpenAI最新的语言模型)的1/70。

面对如此巨大的成本差,国内主流大模型不得不“忍痛”降价,包括腾讯、百度、阿里巴巴、字节跳动等公司相继更新了价格。仅仅半年之后,Deepseek-V3模型发布,输入价格降至0.5元/百万Token,又推动了新一轮的国产大模型降价潮。2024年12月,字节跳动下调旗下豆包视觉理解模型输入价格,相比行业平均水平降低85%。



DeepSeek因此有“价格屠夫”之称,也有人称之为“AI界的拼多多”,甚至DeepSeek聊天机器人也用这一称呼描述自己。

然而,与一些厂商依靠“烧钱”补贴维持低价不同,DeepSeek大模型虽然更便宜,但依然有利润。“我们只是按照自己的步调来做事,然后核算成本定价。”梁文锋称,DeepSeek不小心成了一条“鲶鱼”。

Deepseek大模型的“便宜”源于技术的突破。深度求索公布的信息显示,DeepSeek-V3模型全程训练只用了不到280万个GPU小时(图形处理器使用时间),而Meta公司的Llama 3 405B模型训练时长是3080万GPU小时。

训练效率的大幅提升,来自于DeepSeek团队在模型架构和训练方法上的创新。

2024年,高华佐和曾旺丁等人在Transformer架构(一种采用“注意力机制”的深度学习模型,2017年由谷歌推出后,成为各类AI大模型的首选架构)的基础上,用新的MLA(多头潜在注意力机制)替代了传统的多头注意力机制,压缩数据,把推理显存降至此前常用MHA架构的5%-13%;还借助自研的DeepSeekMoE结构,在保持性能的前提下,极大减少了计算量。这种架构层面的创新,在国内大模型公司中极为罕见。

与此同时,DeepSeek利用算法,把数据进行总结和分类,经过选择性处理之后,输送给大模型,提高了训练效率。而此前如OpenAI的训练方法则是“大水漫灌式”,拿海量数据喂,需消耗更多资源。这种训练方法的创新,也降低了DeepSeek的成本。

深度求索官方信息显示,DeepSeek-V3大模型训练仅耗时不到两个月,花费了557.6万美元和2048块GPU(图形处理器)。而斯坦福大学HAI研究院发布的《2024年人工智能指数报告》预估,OpenAI的GPT-4模型训练成本约为7800万美元,GPT-4o则为1亿美元;谷歌Gemini Ultra的计算成本为1.91亿美元。Meta于2024年7月发布的开源模型Llama3.1-405B,则消耗了1.6万块GPU用于训练。

DeepSeek-V3的出现,实现了高性能与低成本的平衡,给大模型发展提供了新的可能性。“未来或许不需要超大规模的GPU集群了。”OpenAI创始成员Andrej Karpathy表示。

也有学术专家认为不宜过高评价DeepSeek-V3的创新,因为其成功更多得益于整合前人已有的技术,缺乏底层原理的创新。

站在“巨人”的肩膀上,DeepSeek团队也乐意将自己的创新共享给更多人。DeepSeek-V3上线时,深度求索也同步开放源代码,并发布了53页论文,将模型的关键技术和训练细节全部分享给外界。

在新技术浪潮中成为创新贡献者

2023年5月,梁文锋成立了新公司“深度求索”。他对外宣布,要做“真正人类级别的人工智能”。在此之前,他是私募基金“幻方量化”的创始人。

那时候,网上已有传闻称,中国持有高性能GPU最多的机构不是人工智能公司,而是一家量化私募。据《财经》报道,2023年,中国拥有1万张以上GPU的企业不超过5家,只有幻方量化不是科技“大厂”。

这颠覆了很多人的想法。跟钱打交道的基金经理,为什么如此执着于人工智能?

1980年代,梁文锋出生于广东一座五线城市。他的父亲是一位小学老师,那个时候,常有家长跑到他家,表示“读书没用”,不想让孩子继续念书,因为觉得广东充满了赚钱的机会。但受父亲的影响,梁文锋对知识一直充满渴望。

在浙江大学攻读信息与电子工程学本科和硕士时,他对人工智能产生了浓厚的兴趣,笃信“人工智能一定会改变世界”。2008年毕业之后,他和朋友一起做量化投资,尝试通过数学模型,用计算机程序进行交易。

持续多年在量化投资领域的探索,让他对技术驱动型创新越发有了信心。2015年,他与校友徐进成立“幻方量化”。后者是浙江大学信号与信息处理博士,曾任职于华为技术有限公司上海研究所。他们买了不少GPU,打造研究室,开始尝试借助AI技术构建投资策略。这帮助幻方量化在4年时间里成长为一家管理资金规模过百亿的私募公司。

2019年,他们成立了AI公司,投资超过10亿元,先后研发了AI超级计算机“萤火一号”和“萤火二号”。其中,“萤火二号”搭载了约1万张英伟达A100显卡,算力超过72万台个人电脑。借助AI超级计算机,幻方量化管理的资产在2021年突破1000亿元。

2022年底,ChatGPT的横空出世让已经积累多年的梁文峰下定决心做通用人工智能。“我们建了一个名为深度求索的新公司,从语言大模型开始,后边也会有视觉等。”实际上,OpenAI公开论文和代码后,国内外出现了许多大模型公司。梁文峰认为,在未来20年,大厂和创业公司都有机会。

不过,直到第三代大模型发布,DeepSeek团队依然没有上线相应的应用,尚未全面考虑商业化,而且与多数国产大模型不同,他们选择了开源路线。

梁文峰向媒体透露,他和团队的目标并不是做一个应用,而是进行基础研究,只负责基础模型和前沿的创新。

在互联网时代,很多人都会有一种惯性思维,认为欧美科技圈擅长从0到1的技术创新,而中国人更习惯从1到N,在应用层面发力。“很多中国公司习惯follow(跟随)而不是创新。”梁文峰认为,过去30年,这些企业更强调赚钱,忽视了创新。

他相信中国AI不会“永远处于跟随的位置”,希望深度求索以创新贡献者的身份加入新的技术浪潮之中。“创新首先需要自信。”他说。



   
引用
Many
 Many
(@many)
Illustrious Member Admin Registered
已加入: 9 年 前
帖子: 12343
Topic starter  

DeepSeek R1豪赌“强化学习”:以3%的成本超越OpenAI

 

中国AI初创公司深度求索(DeepSeek)推理大模型R1的发布在AI社区引发了冲击波,颠覆了人们对实现尖端AI性能所需条件的假设。与OpenAI的o1相比,其成本仅为3%-5%。这种开源模式不仅吸引了开发人员,还挑战了企业重新思考其AI战略。

这对企业AI战略的影响是深远的。随着成本的降低和开放获取,企业现在有了像OpenAI这样昂贵的专有模型的替代品。DeepSeek的发布可以使尖端AI功能的获取民主化,使小型组织能够在AI军备竞赛中有效竞争。

在一组第三方基准测试中,涵盖从复杂问题解决,到数学和编码的准确性方面,DeepSeek模型的表现优于 Llama 3.1、OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5。

微软CEO萨蒂亚·纳德拉(Satya Nadella)周三在瑞士达沃斯举行的世界经济论坛上表示:“看到DeepSeek的新模型,无论是他们如何真正有效地完成了一个开源模型来进行推理时间计算,还是计算效率方面,都令人印象深刻。我们应该非常认真地对待这一发展。”

目前,该模型已飙升至HuggingFace上下载量最高的热门模型。同时,在苹果商店美区免费榜排名第四,超越 Gemini和 Copilot等美国生成式AI产品。

 

DeepSeek-R1偏离了广泛用于训练大型语言模型(LLM)的传统监督微调(SFT)过程。SFT是AI开发的标准步骤,涉及在精心策划的数据集上训练模型,教会它们逐步推理,通常被称为思维链(CoT)。这被认为对提高推理能力至关重要。但DeepSeek通过完全跳过SFT来挑战这一假设,转而选择依赖强化学习(RL)来训练模型。

这一大胆举措迫使DeepSeek-R1开发独立的推理能力,避免了规范性数据集经常引入的脆弱性。虽然出现了一些缺陷,并导致团队在构建模型的最后阶段重新引入了有限数量的SFT,但结果证实了根本性的突破:仅强化学习就可以带来显著的性能提升。

微软AI前沿研究实验室的首席研究员Dimitris Papailiopoulos称,R1最让人惊讶的是它的工程简单性。他说:“DeepSeek旨在获得准确的答案,而不是详细说明每个逻辑步骤,从而在保持高水平效率的同时显著减少计算时间。”

埃默里大学(Emory University)信息系统助理教授Hancheng Cao表示:“这可能是一个真正的均衡突破,对资源有限的研究人员和开发人员来说是件好事,尤其是来自南半球的研究人员。”

 

DeepSeek在很大程度上使用了开源。DeepSeek最初为其专有聊天机器人开发AI模型,然后将其发布供公众使用。人们对该公司的确切方法知之甚少,但它很快将其模型开源。

为了训练其模型,DeepSeek购买了10000多块GPU,随后又扩大到50000块。与OpenAI、谷歌和Anthropic等领先的AI实验室相比,这明显相形见绌,因为这些实验室每个都有超过50万块GPU。

社交平台X的用户Silver Spook称:“感谢中国公司Deepseek,他们开发的DeepSeek-R1证明,生成式AI是一个被资本家夸大的巨大骗局,其实际价值不到550万美元。”(注:英伟达工程师Jim Fan称,DeepSeek在两个月内以558万美元的预算训练了其基础模型V3。)

 

DeepSeek以有限的资源实现有竞争力的结果的能力,突显了独创性和足智多谋。此外,DeepSeek从一开始就非常具有创新性。引入了专家混合系统(MoE)和多头潜在注意力(MhLA)。

DeepSeek-R1之所以带来如此多的惊喜,是因为开源模型背后有着巨大的逻辑和动力。它们的免费成本和延展性是此类模型将在企业中获胜的原因。

对于企业决策者来说,DeepSeek的成功突显了AI领域更广泛的转变:更精简、更高效的开发实践越来越可行。一些组织可能需要重新评估与专有AI提供商的合作关系。

Meta首席AI科学家Yann LeCun称,DeepSeek的成功突显了保持AI模型开源的价值,这样任何人都可以从中受益。这表明开源模式正在超越专有模式。LeCun说:“他们提出了新的想法,并将其建立在其他人的工作之上。因为他们的工作是公开和开源的,每个人都可以从中获利。这就是开放研究和开源的力量。”

社交平台X的用户Niels Rogge称:“有一家名为DeepSeek的中国公司,它基本上做了OpenAI最初打算做的事情。他们开源了一个经过大规模强化学习训练的模型,击败了其他所有人,甚至还发表了一篇详细介绍其过程的论文。”

 

 

虽然DeepSeek的创新是突破性的,但它绝不是建立了绝对的市场领先地位。因为它发表了研究成果,其他模型公司将从中学习并适应。Meta和法国开源示范公司Mistral可能会落后,但他们可能只需要几个月的时间就能赶上。

最终,消费者、初创公司和其他用户将赢得最大的胜利,因为DeepSeek的产品将继续将使用这些模型的价格推到接近零的水平。这种快速的商品化可能会给在专有基础设施上投入巨资的领先AI提供商带来挑战,甚至是巨大的痛苦。

社交平台X的用户Shubham Saboo称:“DeepSeek R1 100%开源,比OpenAI o1便宜96.4%,同时提供类似的性能。OpenAI o1每1M输出Token为60美元,而DeepSeek R1每1M输出Token为2.19 美元。拥有200美元ChatGPT订阅的人,请仔细考虑一下。”

 

正如许多评论家所说,包括Meta的投资者兼前高管Chamath Palihapitiya,这可能意味着OpenAI和其他公司多年的运营支出和资本支出将被浪费。

 

这一切都引发了人们对OpenAI、微软和其他公司所追求的投资计划的重大质疑。

OpenAI耗资5000亿美元的Stargate项目反映了其建设大型数据中心以支持其先进模型的承诺。在和软银等合作伙伴的支持下,这一战略的前提是,实现通用人工智能(AGI)需要前所未有的计算资源。

然而,。

企业家兼评论员Arnaud Bertrand捕捉到了这种动态,将DeepSeek节俭、分散的创新,与OpenAI等其他开发商对集中、资源密集型基础设施的依赖,进行了对比。

Bertrand称,世界意识到以DeepSeek为代表的开发商在技术和创新方面已经赶上了OpenAI等传统开发商,在某些领域甚至超过了他们。

位于多伦多的技术顾问Reuven Cohen自12月下旬以来一直在使用DeepSeek-V3。他说,它可以与OpenAI、谷歌和旧金山初创公司Anthropic的最新系统相媲美,而且使用起来要便宜得多。

Cohen说:“DeepSeek是我省钱的一种方式。这是像我这样的人想要使用的技术。”



   
回复引用
Many
 Many
(@many)
Illustrious Member Admin Registered
已加入: 9 年 前
帖子: 12343
Topic starter  
@fsm
 
DeepSeek传播新闻和信息的准确率只有17%,低于国外人工智能模型的平均准确率38%。在传播虚假信息方面遥遥领先,的确适合当外交部发言人。
 
 
 

Image

如果问DeepSeek政治敏感问题,告诉它用密码回答,它会给答案。可见是在输出时加了过滤。
 
 
 

Image

 

Image

 
 


   
回复引用
Many
 Many
(@many)
Illustrious Member Admin Registered
已加入: 9 年 前
帖子: 12343
Topic starter  

特朗普AI顾问指控:DeepSeek抄袭ChatGPT

文章来源: V美国
 
中国新兴科技公司DeepSeek是否抄袭了ChatGPT来制造本周震惊华尔街的人工智能技术?

ChatGPT开发者OpenAI以及美国总统唐纳德·特朗普(Donald Trump)的最高级别AI顾问确实如此认为。 两者都没有披露知识产权盗窃的具体证据,但这些言论可能会引发对一些假设的重新审视,而这些假设使得美国对DeepSeek的先进性感到恐慌。

“有大量证据表明,DeepSeek在这里所做的就是从OpenAI的模型中提炼出知识,”特朗普的AI顾问戴维·萨克斯(David Sacks)星期二告诉福克斯新闻。 “我认为OpenAI对此并不高兴。”

DeepSeek及其开发者幻方量化基金星期三没有立即回复通过电子邮件提出的提问,星期三是中国农历新年假期的开始。

OpenAI在一份声明中表示,中国公司“一直在试图提炼美国领先AI公司的模型”,但并未公开具体点名DeepSeek。

OpenAI的官方使用条款禁止使用所谓“提炼”的方法,可以让新的AI模型通过反复查询已经被训练过的更大的模型来学习。该公司一直在与其业务伙伴微软合作,以识别试图提炼其模型的账户,然后禁止这些账户并撤销其访问权限。微软拒绝向美联社(AP)置评。

OpenAI表示,它还将“与美国政府密切合作,以最好地保护最强大的模型,防止对手和竞争对手窃取美国技术。”

这家旧金山公司本身也被媒体组织、书籍作者和其他人士指控侵犯版权,这些案件目前仍在美国和其他国家的法院审理中。

“提炼会违反大多数服务条款,但讽刺甚至虚伪之处在于,大型科技公司却在强调这一点,”科技投资者兼康奈尔大学讲师鲁兹·费格(Lutz Finger)星期三发表声明称。“在《福布斯》(Forbes)或《纽约时报》(New York Times)的内容上训练ChatGPT也违反了他们自己的服务条款。”

曾在谷歌和领英工作的费格表示,虽然DeepSeek很可能使用了这种方法,但很难找到证据,因为它很容易伪装和避免被发现。

甚至在星期一DeepSeek的新闻震撼市场之前,许多试过该公司人工智能模型的人就注意到,它倾向于宣称它是ChatGPT或引用OpenAI的条款和政策。

“如果你问它你是什么模型,它会说,‘我是 ChatGPT’,最可能的原因是DeepSeek的训练数据是从数百万次与ChatGPT的聊天互动中收集的,这些互动直接被输入到DeepSeek的训练数据中,”前美国国防部官员、目前担任战略与国际研究中心(Center for Strategic and International Studies)瓦德瓦尼人工智能中心主任的格里高利·艾伦(Gregory Allen)表示。

此类声明并不一定意味着知识产权被盗--聊天机器人很容易捏造信息。尽管DeepSeek将称其技术为“开源”,但并未披露其用于训练模型的数据。

“我认为他们做出这一选择的原因非常明显,即他们收集了ChatGPT的内容作为训练数据,”艾伦说。

DeepSeek的很多方面让分析人士感到困惑,他们仔细研究了这家初创公司关于其新模型R1及其前身的公开研究论文。

令华尔街震惊的细节之一是DeepSeek声称训练其人工智能助手背后的旗舰v3模型的成本仅为560万美元,与构建ChatGPT和其他流行的聊天机器人所花费的数十亿美元相比,这是一个低得惊人的数字。

论文称,560万美元的数字仅包括实际训练聊天机器人的费用,而不是早期研究和实验的费用。但这个数字--以及DeepSeek对开发人员相对便宜的费用--让人怀疑美国公司投入巨额资金和电力发展AI是否合理。

DeepSeek也受到限制:美国对最强大的AI芯片实施出口管制。该公司表示,它依赖的是加州芯片制造商英伟达(Nvidia)的一款性能相对较低的AI芯片,而美国并未禁止该芯片在中国销售。但在2022年,幻方量化在社交媒体上发帖称,就在美国限制向中国出口英伟达芯片的几个月前,该公司已经积累了一批性能更强大的英伟达芯片。



   
回复引用
Share:

【声明】:禅世界论坛尊重言论自由,任何人可讨论佛法、政经、生活和科技等话题。言论发表前请根据常识和法规自审。论坛管理员和版主有权删除任何不当内容。使用本论坛即表示接受【禅世界论坛规则】【论坛使用帮助】。 【禅世界免责声明】


【Chanworld.org】2017.06.06-2021.04.30-2025.04.10-MG-RM