禅世界论坛

<- 社交账号登录。或禅世界会员登录【论坛使用帮助】
Anthropic在官方博客发布了一篇...
 
Notifications
Clear all

Anthropic在官方博客发布了一篇题为《当AI构建自身》(When AI Builds Itself)

1
1 Users
0 Reactions
60 查看
Many
 Many
(@many)
Illustrious Member Admin Registered
已加入: 9 年 前
帖子: 12621
Topic starter  
当 AI 开始构建自身
 
联合创始人Jack Clark和内部研究机构负责人Marina Favaro
 

一家估值接近万亿美元、正冲刺IPO的AI公司,突然公开呼吁全球暂停AI开发。

6月4日,Anthropic在官方博客发布了一篇题为《当AI构建自身》(When AI Builds Itself)的长文。文章由公司联合创始人Jack Clark和内部研究机构负责人Marina Favaro联合署名,首次罕见对外披露了一批此前从未公开的内部运营数据。

这些数据显示,AI正在以惊人速度加速AI自身的开发进程:截至2026年5月,Anthropic超过80%合并入代码库的代码由Claude撰写;与2024年相比,工程师每日合并代码量已增长8倍;在一项内部研究调查中,员工估计使用最新模型Mythos Preview后,自身产出约为不使用任何AI工具时的4倍。

更关键的是,Anthropic提出了一个令整个AI行业不安的概念警示:“递归自我改进”(recursive self-improvement)——即AI系统无需人类干预、自主设计并改进其继任者的能力。这一阶段尚未到来,但“可能在未来两年内发生,甚至更早”。


我们走向递归自我提升的进展及其影响。

在人工智能的大部分历史中,人类主导了其开发周期中的每一个步骤。但在 Anthropic,我们正将越来越多的人工智能开发工作委托给 AI 系统本身,这大大加快了我们的工作速度。

如果这一趋势发展得足够远,并拥有足够的算力,它将指向一个能够完全自主设计和开发其下一代产品的 AI 系统。这被称为递归自我提升(Recursive Self-Improvement)。我们现在还没有走到那一步,递归自我提升也并非不可避免,但它的到来可能会比大多数机构准备好去应对的时间还要早。

通过利用公开基准测试以及来自 Anthropic 内部此前未公开的数据,Anthropic 研究院(The Anthropic Institute)表明,AI 已经在加速 AI 系统自身的开发。仅举一例:如今,Anthropic 的工程师每季度平均交付的代码量是 2021 至 2025 年期间的 8 倍

本文讨论的技术趋势表明,AI 系统在未来几年内将变得能力更加强大。这些趋势具有巨大的影响。一个能够构建自身的 AI 将是技术史上的一大重大进展——它可能在科学、医疗等诸多领域为世界带来巨大的福祉。但完全的递归自我提升也可能增加人类失去对 AI 系统控制的风险。如果系统能够完全构建自己的下一代,那么我们保护它们、监控它们以及塑造它们行为的方式都将变得至关重要。

AI 参与开发的发展历程

  • 2021–2023:构建第一代 Claude

    • 参与角色:人类、计算机

    • 在早期,Anthropic 的工作与其他科技公司无异:人们在笔记本电脑上编写代码和文档。

  • 2023–2025:聊天机器人

    • 参与角色:人类、计算机、聊天机器人

    • 人们开始使用早期的聊天机器人来协助流程中的部分环节,例如生成简短的代码片段并将其复制到文本编辑器中。

  • 2025–2026:编程智能体(Coding Agents)

    • 参与角色:人类、计算机、聊天机器人、智能体

    • 随着智能体能力增强,它们能够自主编写和修改代码,有时甚至是整个文件。

  • 当下(2026):自主智能体(Autonomous Agents)

    • 参与角色:人类、计算机、聊天机器人、智能体、工作流

    • 智能体现在可以自己运行代码,并将长达数小时的工作分配给其他智能体。

  • 20XX?:闭环(Closing the loop)

    • 在未来,智能体可能具备足够的能力来自己构建和训练模型。如果发生这种情况,未来的 Claude 版本可以由 Claude 自身进行持续的改进。

来自外部世界的证据

AI 模型的改进速度正在加快。它们能够独立可靠完成的任务时长,大约每四个月就会翻一倍(而此前的趋势是每七个月翻一倍)。2024 年 3 月,Claude 3 Opus 可以完成需要人类花费大约 4 分钟完成的软件任务。一年后,Claude 3.7 Sonnet 能够应对需要约 1.5 小时的任务。又过了一年,Claude 4.6 Opus 已经能处理耗时 12 小时的任务。如果这一趋势保持下去,需要熟练人员花费数天才能完成的任务可能会在今年内进入 AI 的能力范围。到 2027 年,AI 系统可能就有能力处理需要人类花费数周时间的任务。

同样的模式也出现在编程和研究的基准测试(Benchmarks)中。基准测试用于衡量模型在特定领域的性能,当模型获得接近 100% 的表现时,基准测试就会趋于“饱和”。SWE-bench 是针对现实世界软件工程的标准测试:它向模型提供一个真实的开源代码库和一个真实的错误报告,并要求其编写代码修改以修复该问题并通过项目自身的测试。在两年内,模型的得分已经从极低的个位数发展到使该基准测试达到饱和。

CORE-Bench 测试模型是否能够复现现有的研究,这是它们开展原创性研究的前提。它向 AI 模型提供已发表论文背后的代码和数据,并要求其重新运行所有内容并确认能够复制该论文的结果。AI 系统成功复现结果的比例从 2024 年的约 20%,发展到 15 个月后的基准测试饱和。负责运行衡量模型完成长期任务能力的基准测试机构 METR 发现,Claude Mythos Preview 可以工作“至少”16 小时,并且已经处于“在没有新任务的情况下,[METR] 所能衡量的上限”。

公开的基准测试能够说明很多关于这些系统能力的问题。但它们无法揭示 AI 系统在加速 AI 自身开发方面所产生的具体影响。为此,我们需要来自像 Anthropic 这样的 AI 公司内部的直接证据。

来自 Anthropic 内部的证据

构建一个前沿模型主要包含两大类工作。一是工程(Engineering):编写代码、搭建基础设施以及监督模型训练;二是研究(Research):决定运行哪些实验、解读返回的结果以及思考下一步尝试哪些想法。

在工程和研究两个领域,情况是一致的。在工程方面,可以给 Claude 一个界定模糊的问题,它能自己想出解决方案;人类提供目标,但不再需要提供方法。在研究方面,Claude 在执行一个界定明确的实验时,已经能够媲美或超越熟练的人类。然而,当涉及到让 Claude 在工程和研究中运用判断力来选择目标时,依然存在巨大的性能差距。这就是今天的 AI 与未来能够自主设计其下一代的系统之间的差距。

随着经验的增加,Anthropic 的员工通常会承担更多开放性和更重要的任务。在早期,他们执行别人指定好的任务,比如:“导出按钮无法正常工作,请修复它。” 随着经验的积累,他们被赋予一个目标并自己设计方法,例如:“调查为什么网络在重载下会变慢。” 在最资深的层面上,他们要决定哪些问题根本不值得花时间去做:“团队下个季度应该构建什么?” 我们可以利用 Anthropic 的内部数据来看看 Claude 在处理这些不同类型的任务上已经走了多远。

Claude 编写了 Anthropic 相当大比例的代码。截至 2026 年 5 月,我们合并到 Anthropic 代码库中的代码有 80% 以上是由 Claude 编写的。在 2025 年 2 月 Claude Code 推出研究预览版之前,这个数字还处于极低的个位数。这种转变也体现在每位工程师的产出量上。在 Anthropic 的前四年(2021-2024 年),每位工程师每天合并的代码行数保持恒定,然后在 2025 年开始向上攀升,当时 Claude 开始能够运行代码,而不仅仅是提出建议供工程师复制粘贴。这一斜率在 2026 年随着模型开始在更长的时间跨度内自主工作而再次变陡。在 2026 年第二季度,典型工程师每天合并的代码量是 2024 年的 8 倍。这是因为大部分代码都是由 Claude 编写的,工程师负责指导和审查,而不是自己敲击键盘。

注意事项: 代码行数是一个不完美的衡量标准,因为它衡量的是数量而非质量。因此,2026 年第二季度每位工程师每天 8 倍的代码行数几乎肯定夸大了真正的生产力提升。尽管如此,它表明了一种加速趋势。在 Anthropic,我们并不根据员工编写了多少行代码来给予奖励;相反,团队成员之所以能产出更多代码,仅仅是因为他们正在使用 AI 系统来编写更多代码。

代码行数的增加与生产力大幅提升的主观印象是一致的。在 2026 年 3 月对来自 Anthropic 各个研究团队的 130 名员工进行的一项民意调查中,受访者中位数估计,在他们无论如何都会从事的项目类型上,使用 Mythos Preview 产生的产出大约是没有任何 AI 模型时的 4 倍。我们预计 3 月份的实际提升程度会略低一些。尽管如此,我们认为整体的说法是合理的,并且与我们的其他观察相符:相当大一部分 Anthropic 的技术人员完成核心工作的速度,比没有 AI 协助时快了数倍。

我们还看到证据表明,Anthropic 的员工正在使用 Claude 来做一些如果不是因为 AI 就根本不会发生的工作,例如构建探索性工具和处理拖延已久的清理工作。例如,在 2026 年 4 月,Claude 交付了 800 多个修复程序,将一类 API 错误降低了千分之一。负责监督 Claude 的工程师估计,人类需要花费四年时间才能完成这项工作;解决别人的 Bug 是缓慢而艰巨的,人类很难在脑海中同时容纳这么多陌生的上下文。

“大约一年前,我开始全力转向‘Claude化’(Claudifying)。那是一段疯狂的冒险,现在距离我上一次自己写代码已经过去大约 5 个月了。” —— Anthropic 员工

Claude 编写的代码质量“良好”且在不断改进。“好代码”意味着两件事:它能正常工作,且其编写方式允许另一位工程师理解并在此基础上进行构建。在第一个标准上,证据是显而易见的。一年来,Anthropic 员工对 Claude 进行修正、重定向或在任务中途接管的比例一直在稳步下降,即使在最复杂和最开放的任务中也是如此。这意味着在没有明确规范、工程师自己都不确定答案是什么样的问题上,Claude 也能胜任。

在最开放的任务中,Claude 的成功率在 2026 年 5 月达到了 76%,在六个月内上升了 50 个百分点。举一个该难度级别的任务示例:一次例行升级导致成千上万个训练任务崩溃。一位工程师向 Claude 指出了这一实时事故,当时几乎只提供了一些文本内容和集群访问权限。通过分析运行中的任务并一次测试一个环境设置,Claude 隔离出了触发崩溃的单个晦涩的调试标记,稳定地复现了它,并确认了修复方案。在大约两小时内,Claude 交付了通常需要两到三天才能完成的工作。

第二个标准是编写其他工程师能够理解并在此基础上进行构建的代码。在这一点上,人类和 AI 之间仍然存在差距,但正在迅速缩小。Anthropic 内部尚未达成完全共识,但许多人认为,在 2025 年底,Claude 编写的代码质量仍低于 Anthropic 人类编写的代码,而今天则大致持平。我们预计在一年内它会变得更好。

这已经改变了 Anthropic 现在审查自身代码的方式。现在,提交给代码库的修改建议会由一个自动化的 Claude 审查员阅读,在合并之前查找错误、安全漏洞和其他缺陷。利用这个工具,我们进行了一次追溯分析,发现如果对我们代码库的每一次修改都进行自动化的 Claude 审查,就能在过去 claude.ai 发生的事故上线之前,捕获其中大约三分之一的 Bug。编写这些代码的工程师是世界上构建这些系统最优秀的人才之一。而 Claude 现在正在捕捉他们遗漏的错误。

“在 2025 年底,Claude 编写的代码比 Anthropic 人类编写的代码稍差,今天大致持平,我们预计在一年内它会绝对胜过人类。”

Claude 非常擅长通过运行实验来达到别人设定的目标。每次 Anthropic 发布模型时,我们都会运行相同的测试:我们给 Claude 一些训练小型 AI 模型的代码,并要求它使该代码运行得尽可能快,同时仍要通过相同的正确性检查。目标和成功指标是预先固定的,因此 Claude 的工作就是通过重写代码、运行、计时并重复这一过程来寻找加速的方法。这是一个实验性研究循环的微缩版本。在 2025 年 5 月,Claude 4 Opus 相比初始代码实现了平均约 3 倍的加速。到 2026 年 4 月,Claude Mythos Preview 达到了 约 52 倍 的加速。作为参考,一个熟练的人类研究员需要四到八个小时才能达到 4 倍。在研究工作流的这一部分(在明确定义的实验中优化步骤),Claude 在不到一年的时间里已经从“超级帮手”变成了“超越人类”。

“如今的情况大致是‘人类产生想法,而模型能够以比以前快一个数量级的速度去实现、测试和评估它们’。”

Claude 在提出自己的实验建议方面正变得越来越好。2026 年 4 月,Anthropic 发表了第一个关于 Claude 全程端到端运行开放式研究项目的演示。由 Claude 驱动的智能体被赋予了一个 AI 安全领域的开放性问题——大致是:较弱的模型能否可靠地监督较强的模型?——然后让它们自己去解决。这涉及提出假设、测试假设、与并行智能体分享发现并进行迭代。该任务有一个明确的性能“下限”和“上限”:下限是弱监督者自己能做多好;上限是强模型在针对正确答案进行训练时的表现。两位人类研究员在全天大约一周的时间里,弥补了这一差距的约 23%;而智能体在累计 800 小时内弥补了 97% 的差距,并消耗了大约 18,000 美元的算力。这项工作有一些注意事项:结果并没有完美地转化到生产规模的模型中,而且人类仍然选择了问题并创建了评分标准。但在这些范围内,智能体自己设计了每一个实验。设定方向是人类扮演的唯一有意义的角色。

“在 1-2 天的时间里,Claude 在我极少协助的情况下完成了所有这些工作。我想如果一个初级同事在同样的时间里带着这样的结果回来找我,我会感到有些惊艳。未来已来。”

Claude 在引导研究会话走向研究发现方面正变得越来越好。我们检查了真实的 Claude Code 会话(在 2026 年 1 月至 3 月之间),在这些会话中,Anthropic 的研究人员正与 Claude 一起解决一个开放式的调查性问题,比如查明为什么训练运行一直崩溃,或者为什么模型在某个基准测试中得分很低。在每个案例中,我们都发现了研究人员走弯路的时刻:他们追求了一个导致会话跑偏的方向,然后才最终回到正轨。接着,我们只向各种 Claude 模型展示会话走偏之前的回溯工作,并询问它接下来会做什么。随后,另一个能够看到会话最终结果的独立 Claude 会评估是 AI 还是人类提出了更好的下一步建议。

因为我们刻意挑选了那些我们知道人类的选择还有改进空间的时刻(n=129),这并不是模型与人类判断力之间对等的比较。这些时刻为我们提供的是一套现实且具有挑战性的情境,在这些情境中,正确的下一步并不明显,而人类的选择可以作为一个有用的标尺,来衡量模型性能随时间推移的变化。在这项指标上,我们在 2025 年 11 月最好的模型(Opus 4.5)在 51% 的情况下击败了人类的选择;而在 2026 年 4 月(Mythos Preview),这一比例增长到了 64%。研究的日常工作很大程度上就是由这一连串的下一步决策组成的,这使得该指标成为衡量模型最终自主运行调查能力的切合标准。我们将这一结果视为一个早期信号,表明 AI 系统在做出 AI 研究赖以进行的各类判断抉择方面正变得越来越好。

“截至目前,人类的比较优势仍然在于看清更大的图景,以及跳出当前任务的局限进行思考。”

Anthropic 未来的工作可能会是什么样子?

证据表明,在 AI 开发过程的每一步中,人类的角色都在变窄。一旦人类和 AI 编写的代码质量达到对等,人类将完全停止编写代码,转而只进行审查。但如果他们审查代码的速度赶不上 Claude 生成代码的速度,人类审查就会成为 AI 开发的瓶颈。同样地,一旦 Claude 能够运行实验,问题就会转向“这些实验中哪一个值得运行?” 简单来说:执行(即编写代码、运行实验、产生结果)现在在人类时间上的成本几乎为零,即使它在算力上仍有成本。

目前,人类具有比较优势的领域是研究的品味和判断力,包括选择哪些问题重要、信任哪些结果以及何时判定某种方法走入了死胡同。

“过去的工作(和生活)依赖于人类之间小帮小助的‘互惠经济’。‘你能帮我把这个脚本运行起来吗?’ [...] 每一次帮助都创造了一点人情债,一点共同的意识。而 Claude 速度更快,创造零人情债,但每一次这样的交互,都是一次人类合作机会的流失。”

“在一切运转顺利的日子里,我忍不住会想,我做的任何事情都不重要了,一切都是自动化的,而且比我能做到的更好、更快。但也有一些日子,所有东西都崩溃了,我不知道为什么,我才意识到自己根本不知道自己一直在忙些什么。”

如果我们错了呢?

对于上述证据的一个很自然的反对意见是:目前仍掌握在人类手中的工作——选择研究哪些问题——才是最重要的。缺乏这种判断力,Claude 只是一个能干的助手,而不是一个能够独自推动 AI 进步的系统。

目前尚不明确今天的训练方法和架构能否解锁这种能力。但 AI 很少是通过“灵光一现(eureka!)”的时刻取得突破的。在 AI 的近代历史中确实有一些这样的时刻,比如 Transformer 架构或混合专家(MoE)模型,但颠覆范式的想法往往相隔数年才出现。在这些时刻之间,大多数进展都是渐进式的:我们扩大某种规模,看看什么地方崩溃了,修复它,然后再次尝试。这恰恰是 Claude 现在所擅长的工作流。爱迪生说过,天才是 1% 的灵感加上 99% 的汗水。但我们看到,这些汗水正变得越来越自动化。很明显,推动前沿发展的许多工作都是可以自动化的;大规模的研究进展在很大程度上取决于工具和资源,它们决定了你运行实验的速度、能同时运行多少个实验以及多快能获得结果。

即使我们假设 Claude 永远无法获得良好的研究品味,对我们证据的保守解读仍然意味着复合式的加速。如果人类将大部分时间花在仅占个位数比例的“方向设定”工作上,而 Claude 处理其余的工作,这意味着每位工程师或研究人员所操控的工作量将远超从前。我们所看到的证据表明,Anthropic 的员工既移动得更快,覆盖的范围也更广。在实践中,这意味着 AI 已经使 Anthropic 的运转速度远快于高效 AI 工具出现之前。

而较不保守的解读是,关于 Claude 研究判断力正在改善的早期证据(尽管目前还很局限)是一个风向标,表明这一能力同样在提升。“研究品味”可能只是又一个 AI 系统在一段时间内无法做到、随后便能擅长的 AI 能力。我们在其他定性技能上也看到了类似的模式,例如 AI 系统能够解释为什么一个笑话好笑、展现出心智理论(Theory of Mind)以及解决语言谜题。

可能的未来

接下来会发生什么取决于两件事:趋势是否持续,以及如果持续我们选择怎么做。我们至少可以想象三种未来的场景:

  1. 趋势停滞,但今天的 AI 能力得到了广泛普及。 本文包含了许多指数级的轨迹。但这些轨迹实际上可能会变成 S 型曲线(S-curves)。我们可能正接近曲线的弯曲点,此时规模带来的回报递减,线条变直,然后趋于平缓。区分一个平庸的研究员与一个伟大研究员的“判断力”,可能是一种无法通过扩大训练输入(如算力和数据)来获得的能力。如果是这样,突破这一瓶颈将需要新的想法,例如取代目前所有前沿模型都在使用的 Transformer 架构的新架构方法。

    或者,AI 进步的束缚性限制可能存在于供应链中,而不是模型本身:推进和普及前沿技术可能需要比目前存在的更多的能源和算力。芯片制造的速度、电网扩张或互连带宽可能是限制因素,而不是智能本身。我们也不能排除外部冲击对 AI 生态系统造成剧烈减速的可能性,例如算力或电力供应的突然减少,这两者都会减缓进展,并使得实验室的远期投资变得更加昂贵。或者,我们可能没有预见到其他阻碍进展的壁垒。

    即使模型能力冻结在今天的水平,我们也可以预料到世界会发生重大变化。Project Glasswing 就是一个早期迹象:在其最初几周内,Mythos Preview 在世界上最重要的系统中发现了超过一万个高危和严重级别的软件漏洞——多到网络防御的瓶颈已经从“发现漏洞”转移到了“如何足够快地修补漏洞”。而且,今天的模型向更广泛的经济领域的扩散仍处于早期阶段,在那种情况下,一个 100 人的公司越来越能做 1,000 人公司的工作,因为每个员工都将坐拥一个智能体金字塔。

    我们加入这个场景是为了全面性,但我们不认为这很有可能。我们能衡量的每一项能力,包括那些感觉“更模糊”的能力,如代码质量和在开放式任务中的成功率,到目前为止都遵循着相同的曲线。我们还没有看到这条曲线发生弯曲。在我们考虑的三个未来中,这一个将给政府和社会留出最多的适应时间。我们更担心接下来的两个,它们会发展得更快,留给准备的空间也少得多。

  2. AI 实验室继续获得复合的效率提升。 在这种情景下,AI 开发实质上实现了高度自动化,但人类继续设定研究方向并评判结果。使用 AI 系统的组织随着时间的推移会变得更加高效,因此我们可以预期每个人身上都会出现显著的生产力倍增效应。100 人的公司可以完成 10,000 人或 100,000 人组织的工作。这将彻底变革知识工作和政府服务,但也可能被用于有害的目的,从对全体人口的威权主义监视,到针对每个人定制操纵手段且运行规模远超人类团队极限的影响力行动(Influence Operations)。在像 Anthropic 这样的公司,人类的角色将会转变。人们将与 AI 系统合作以扩大研究规模并产生新的见解,他们将共同构建所需的系统,以验证 AI 的产出是否可以被信任。

    我们在这里阐明的证据表明,我们很可能正在走向这个场景。但是,加速一个流程中的某一部分往往只是把瓶颈转移到了其他地方:整体步伐受限于那些没有加速的部分。在计算机科学中,这被称为阿姆达尔定律(Amdahl’s law),同样的逻辑也适用于组织。Anthropic 已经遇到了阿姆达尔定律的一个特征表现:随着我们开始在组织内推动更多代码,人类代码审查已成为一个新的瓶颈。

    我们在工程之外也遇到了这种摩擦。由于 Anthropic 员工与高能力模型合作,新想法、新计划、新工具和新模拟出现了爆炸式增长——远超我们有能力去追求的范围。组织发现并解决这些瓶颈的速度可能是一项随着时间推移而提高的技能,它可能成为任何组织最重要的一项技能。

  3. AI 系统自身变得能够进行完全的递归自我提升,并开始构建它们的下一代。 如果提升能力的性能趋势持续下去,且 AI 系统能够发展出人类变革性创造力所固有的能力,那么 AI 系统设计和完善自身便是说得通的。

    在这个世界中,AI 开发的进步步伐完全取决于 AI 系统可获得的算力(或在算法训练/推理中发现各种效率提升的速度)。人类在其开发中扮演的角色大幅削减,可能会将我们的大部分精力转向对 AI 系统运行的不断扩大的“虚拟实验室”进行监督、确认和验证。我们预计,能够进行自动化 AI 研究与开发的系统所具备的技能将转移到其他科学领域,使它们开始彻底变革其他学科。

    在这种未来中,对齐问题(Alignment Problem)如何得到解决——或者无法解决——是我们最不确定的事情。模型可能会被证明足够对齐且具备足够的研究品味,从而发现并实施我们尚未触及的新颖解决方案。如果情况不妙,它们也可能足够明智地停止开发。或者,今天模型中存在的罕见的不对齐现象可能会在模型构建其下一代时复合叠加,变得更加频繁却更少被理解,直到我们失去对它们的控制。我们可能无法构建、整合和验证那些我们用来理解自己究竟处于哪条趋势线所需的工具。

    我们对这个世界会长成什么样并没有良好的直觉,因为我们的经济目前是由人类和人类制造的工具驱动的。就其本质而言,一个由快速递归自我提升驱动的世界可能会被自我提升的模型所主导,因为它的能力将完全盖过人类,并且该模型会扩散到更广泛的经济领域。如果人类劳动力停止具备竞争力,很难预测经济会变成什么样。

    即使模型开发变得完全自动化和递归化,我们也无法预测这对大多数人的日常生活意味着什么。阿姆达尔定律在这里同样适用。递归智能可能会导致在某些领域迅速实现《仁慈机器》(Machines of Loving Grace)中所概述的许多福祉。我们预计具身智能(即机器人技术)可能会紧随递归智能之后,并走上一条相似的以递减成本获得递增回报的道路。更强大的智能可能会帮助我们更快地在物理世界中建造东西,进行更高效的挽救生命药物的临床试验,并发展出新颖的协作形式。

    但仅实现递归提升并不能预示工业生产方式、社会组织形式或市场运作机制会立即发生改变。再强大的智能也无法在数十年使用之前就了解到一种药物的长期作用,无法在宪法规定之前提前举行选举,也无法在一个周末里将一个陌生人变成老朋友。对于大多数人来说,这个未来所感受到的步伐仍将由瓶颈决定,即使上游的实验室正以算力的速度运转。这种碰撞——构建自身越来越快的递归智能与由人类、人际关系和治理组成的世界相遭遇——是这个我们无法预测的未来的另一个部分。

我们应该怎么做?

如果有可能有效地放慢这项技术的发展速度,以给我们自己更多的时间来应对其巨大的隐秘影响,我们认为这可能会是一件好事。但如果放慢速度仅仅让那些最不谨慎的行动者在技术上赶上来,它可能会让每个人都变得更不安全。在缺乏全球协调机制的情况下,公司和政府将不得不在竞争和地缘政治压力下做出关于安全的艰难决定。

我们认为,如果世界能够拥有放慢或暂时暂停前沿 AI 开发的选项,以便让社会结构和对齐研究能够跟上技术的进步,这将是一件好事。Anthropic 研究院将与许多其他机构合作开展研究并采取行动,以帮助构建可靠的减速或暂停所需的系统。这些系统将使前沿 AI 开发商能够核实全球其他开发商是否确实停止或放慢了脚步,并确保不良行为者无法利用协同减速的掩护在暗中跳跃式领先。如果存在这样的系统,只要处于或接近前沿的其他开发商也以可验证的方式这样做,我们预计我们也会放慢速度或暂时暂停。

一次有意义的减速或暂停需要多个国家处于或接近前沿的、资源充足的实验室同意在相同条件下停止。它还需要每个实验室都能核实其他实验室是否确实停止了。由于 AI 系统的独特特征,这一军控问题的“可探测性”(一个比“可验证性”更低的标杆)要素比其他技术要具有挑战性得多。训练运行比导弹发射井要容易隐蔽得多,它们的输入是通用目的的,而且悄悄违约的动机是巨大的,因为谁在别人暂停时继续前行,谁就可能接过领先地位。一个可信的暂停还必须明确是由什么触发的、由什么解除的以及由谁来裁决。

这一切在原则上并不一定是不可能的——世界已经为其他复杂技术建立了核查机制(例如《中导条约》)——但那些机制花费了数十年时间才建立起基础设施和信任。我们没有那么长的时间。相比之下,一个实验室的单方面暂停是可以立即实现的,但起到的效果要小得多:它会改变谁是领跑者,但它不会创造目前所缺失的更广泛的审议流程。

在接下来的几个月里,我们将组织对话,邀请政策制定者、研究人员、公民社会和其他 AI 公司共同解答本文提出的一些问题,特别是围绕完全的递归自我提升以及如何为协调和审议创造更好的选项。我们将公布这些对话的成果。共同调查这些问题的窗口期已经打开,AI 公司之外的人们应当参与到这场审议中来。

 

脚注 (Footnotes)

  1. METR 的核心衡量指标告诉你在处理一组任务时,AI 系统达到 50% 可靠性所需的时间跨度,不过该趋势线在 80% 可靠性下的表现基本一致。

  2. 尤其是当基准测试向更具开放性的形式和更高难度的任务(例如奥林匹克级别的数学题)转变时,由于题目和答案集中存在诸如表述含糊或无解的问题等错误,基准测试往往在达到 100% 之前就已趋于饱和。

  3. Anthropic 领导层曾公开估计,我们 90% 或更多的代码是由 Claude 编写的,这包括脚本和实验性代码。我们文中提到的“超过 80%”这一数据,衡量的是合并到生产环境的代码行数中归功于 Claude 的比例。从两方面来看,这都是一个更保守的衡量标准:一是我们的归因流程存在盲区;二是那些未归因于 Claude 的代码行中,还包含了同样并非由人类亲手编写的自动生成代码及其他产物。

  4. 代码产量的这一激增正在让所有人共享的基础设施承受巨大压力。GitHub(全球绝大多数软件的构建平台)在 2025 年全年见证了大约 10 亿次代码提交(commits);而到了 2026 年年中,其每周的提交量已达 2.75 亿次,按此速度,全年预计将达到约 140 亿次。该公司的首席运营官(COO)表示,为了跟上这一速度,他们正在容量扩展上“付出令人难以置信的巨大努力”。

  5. 关于本次调查方法的更多细节,在《Claude Opus 4.7 系统卡》(System Card)的第 2.3.5 节中有所讨论。

  6. 许多受访者可能没有仔细思考过如何排除问题定义中的各种偏见或微妙之处,且 METR 最近的研究表明,开发人员对 AI 生产力提升幅度的估计可能会偏高。

  7. 加速幅度能有多大,很大程度上取决于初始代码留下了多少改进空间,因此不应将其理解为现实世界中的真实训练加速。所以,这里的绝对倍数并不是最核心的数据。更有参考价值的是这种实验设置所实现的“同类对比”——无论是模型之间的对比(过去一年里从约 3 倍提升到约 52 倍),还是与熟练人类的对比(人类在同一任务上花费 4 到 8 小时达到约 4 倍)。

  8. 为了检验裁判模型的偏见,我们在另一组包含 127 个时刻的样本上运行了相同的测试,在这些时刻中,人类的下一步举措已经非常强劲(这与原始样本集相反,原始样本中人类的方向尚有改进空间)。在那组测试中,模型的建议被评为更好的比例仅为 20% 左右。

* 本文各处引用的 Anthropic 员工言论均出自内部讨论,并在获得许可后使用。它们反映的是截至 2026 年 5 月的个人观点,并不代表公司的官方立场。



   
引用
Share:

【声明】:禅世界论坛尊重言论自由,任何人可讨论佛法、政经、生活和科技等话题。言论发表前请根据常识和法规自审。论坛管理员和版主有权删除任何不当内容。使用本论坛即表示接受【禅世界论坛规则】【论坛使用帮助】。 【禅世界免责声明】


【Chanworld.org】2017.06.06-2021.04.30-2025.04.10-MG-RM