我同意根据隐私条款存储和使用数据。

<- 社交账号登录。或禅世界会员登录。【论坛使用帮助】

Notifications

Clear all

黄仁勋对话Ilya Sutskever：揭示ChatGPT如何诞生，展望AI大模型未来

科技

最近一次发帖发布者 Many 3 年前

1 贴

1 Users

0 Reactions

1,108 查看

RSS

Many

(@many)

Illustrious Member Admin Registered

已加入: 9 年前

帖子: 12528

Topic starter 09/04/2023 10:58 上午

黄仁勋对话Ilya Sutskever：揭示ChatGPT如何诞生，展望AI大模型未来

来源：微信公众号王铮Silvia

时间：2023年4月4日

字数：11,367

深度学习与神经网络

黄仁勋：Ilya，难以置信，今天居然是GPT-4发布后第2天，很高兴在这里见到你，与你一起聊天。我们认识很久了，从我认识你以来，你做了很多开创性工作，从多伦多大学就开始了。你与Alex Krizhevsky和Jeff Hinton共同发明了AlexNet，这带来了现代AI大爆炸。

你的职业生涯也把你带到美国湾区，OpenAI的创立，GPT-1、2、3。当然，还有让AI风靡全球的ChatGPT。这真是年轻计算机科学家的卓越履历，让整个业界都对你成就由衷敬佩。

我们还是回到开始，让我来问问关于深度学习的一些问题。你对深度学习Deep Learning认识是什么样？为什么你知道它会发挥作用？你心中就一定认为深度学习会取得如此成就吗？

Ilya Sutskever：首先，非常感谢你的盛赞。是的，深度学习的强大能力确实改变了世界。我觉得我个人的出发点在于，我对AI感兴趣的原因有很多，出发点是对AI巨大影响力的直觉。同时，我也对究竟什么是意识充满了好奇，以及究竟什么是人类体验。我觉得AI的发展，能帮我去理解这些问题。

当我在2002~2003年刚开始的时候，学习Learning看起来是件只有人类能做到的事情，计算机完全办不到。2002~2003年，计算机还不会学习任何东西，甚至在理论上是否可行都不太清楚。所以我想，如果能在智能学习或机器学习方面做出一些成果，将很有可能成为AI领域最大的进步。

于是从那时起，我开始在这个领域做一些探索。一开始还没有那么乐观，但幸运的是，Jeff Hinton是我所在大学的教授，我找到了他。他工作方向就是神经网络Neural Networks，这就是我想要的。因为神经网络特性就在于能够学习，能够自动为并行计算机编程。

那时候，并行计算机还很小。但是希望在于，如果你弄明白学习和神经网络的工作原理，你就可以通过数据为小型并行计算机编写程序，它与大脑工作原理是相似的。所以，就好像有了几个理由可以支撑你继续走下去。虽然还不太清楚如何让它起作用，但基于已有的所有东西，似乎表明它的前景是最光明的。

黄仁勋：在你首次开始使用深度学习与神经网络时，网络的规模是多少？当时的计算规模是多少？

Ilya Sutskever：有意思的是，当时没有人意识到规模的重要性。人们训练的神经网络只有50或100个，几百个神经元已经是很大的神经网络了。100万的参数，会被认为是很庞大的。

我们一般在没有优化过的CPU上跑我们的模型。因为我们都是研究者，不了解基础线性代数子程序库BLAS（Basic Linear Algebra Subprograms，提供大量常见线性代数操作的高效实现，可用于很多科学计算领域），我们使用优化过的Matlab。我们会做一些实验，诸如用什么样的问题来提问比较好。我们试着去发现有趣的现象，有趣的观察结果。试试这个，试试那个，都是小的尝试。

Jeff Hinton当时对训练神经网络用于小数字感到很兴奋，还有分类任务。同时，他对于如何生成那些数字也很感兴趣。所以生成模型的源头，就从那里开始。但是问题在于，你做的那些很酷的东西都很零散，什么才能真正将它们串联起来？当时并不是很清晰。这就是关键问题。事实证明，也确实是这样。

AlexNet

黄仁勋：AlexNet是在2012年？

Ilya Sutskever：是的。

黄仁勋：在2012年之前，你和Alex Krizhevsky为AlexNet工作了一段时间。你是在什么时候明确想要去构建面向计算机视觉的神经网络？ImageNet是参加计算机视觉竞赛的数据集。

Ilya Sutskever：我先介绍一些背景，我记得大概是2010年，我意识到有监督学习是解决问题的关键。我可以准确解释为什么是有监督学习。这不仅是种直觉，我能明确说出一个无可辩驳的论点。如果你的神经网络有足够深度，并且足够大，那就可以用它去解决一项有难度的任务。关键词是深（Deep）、大（Large）。

那时人们还没有去关注大型神经网络，人们可能正在研究神经网络的一点点深度。但是，大部分机器学习的领域根本没有去研究神经网络。他们正在研究各种贝叶斯模型Bayesian Model和核方法Kernel Methods。这些方法虽然有优雅的理论基础，但并不意味着就是一个好的解决方案，不管你怎么配置它们。

但是大型深度神经网络却能在面对问题求解时，给出好的答案。为了找到好的解决方案，你需要合适的大数据集，以及大量的计算来完成这项工作。我们也做了一些高级的工作，在优化方面做了一些工作。很明显，优化是一个瓶颈。

Jeff Hinton实验室的另一位研究生James Martens取得了突破，他提出了一种与我们所做的不同的优化方法，他使用了一些二阶法Second-order Method。这件事的关键在于，它证明我们可以训练这些神经元，因为我们之前不知道是否可以训练它们。

如果你能训练神经网络，你就把它变大一些，然后去找一些数据，这样你就能成功。所以接下来的问题是，去找什么样的数据？答案就是ImageNet数据集。

在当时看来，ImageNet是一个难度极高的数据集。但很明显，如果你要训练一个大型卷积神经网络Convolutional Neural Networks，在这个数据集上它必须成功，假设你有足够的算力。

黄仁勋：正好在那时，你和我，我们开始同行。你是怎么发现能用GPU的？那时我们开发了几个版本的CUDA GPU，我记得应该是GTX 580。你发现GPU实际上对于训练你的神经网络模型非常有帮助。这到底是怎么发生的？从什么时候开始的？你可以给我讲一讲吗？你之前从来没有给我讲过。

Ilya Sutskever：你知道GPU出现在我们多伦多的实验室，这个要感谢Jeff Hinton，他说我们应该试试GPU。我们开始尝试和试验它们，这个过程很有意思。但是我们也没有完全搞懂，它们真正的用途在哪里，你怎么样才能让它们发挥作用。

不过接下来我们发现，随着ImageNet数据集的出现，卷积神经网络是非常适合GPU的模型。它有可能让训练变得非常快，因此就能做规模远超以前的训练。所以，就是这么发生的。

非常幸运的是Alex Krizhevsky，真的很喜欢GPU编程。他可以给GPU编写程序，而且为卷积核Convolution Kernels编写程序的速度非常快。然后在ImageNet数据集上，去训练神经网络，并最终得到结果。

黄仁勋：结果震惊世界，它大幅打破了计算机视觉的纪录，这是非常明显的突破性进展。

Ilya Sutskever：对，我是想说它并不是之前方法的延续，它并不是像常规那样的打破纪录。我想换种说法来表达，关键点在于这个数据集其实是很难的，它是超出正常范围的。其他人会用经典方法取得一点进展，但是这件事取得的进展是如此之大。不仅如此，这个比赛在当时不是一个普通比赛，它是非常困难的，遥不可及。如果你做得很好，那将是非常惊人的。

OpenAI

黄仁勋：AI大爆炸。快进到现在，你来到硅谷，你和一些朋友一起创办了OpenAI，你是首席科学家。关于在OpenAI开展哪些工作，你最初的想法是什么？因为你们做了一些事情，你们的工作和发明，带来了ChatGPT时刻。但是，最早的源动力是什么？你是怎么让它实现的？

Ilya Sutskever：在刚开始的时候，我们显然不是100%清楚如何去推动它。而且当时这个领域，与现在截然不同。现在我们拥有这些惊人的工具，这些惊人的神经网络，来做一些难以置信的事情。

但回到2015~2016年，回到2016年初，当我们开始创业时，整个事情看起来很疯狂。当时，这个领域的研究人员要少得多，可能比现在少100~1,000倍。那时可能只有100个人，他们中大多数人在Google/DeepMind工作。然后有些人开始学习这些技能，但仍然非常稀缺。

我们有两个很大的初始想法，在OpenAI刚开始的时候，这些想法的持久力，一直伴随着我们到今天。

我现在会描述一下它们。

第一个想法，通过压缩上下文进行无监督学习Unsupervised Learning。

今天，我们想当然认为无监督学习很简单。你只需对所有东西进行预训练，一切都完全按照你的预期进行。但在2016年，无监督学习是机器学习中一个尚未解决的问题，没有人知道该怎么做。杨立昆Yann LeCun到处发表演讲，说监督学习面临巨大挑战。我真的相信好的数据压缩将产生无监督学习。

直到最近，在描述无监督学习的工作原理时，我们还不会广泛提及压缩Compression。很多人突然了解它，是因为GPT模型实际上压缩了训练数据。你可能还记得Ted Chiang在《纽约时报》上的文章，它也提到了这一点。

但从数学意义上讲，训练这些自回归生成模型Auto-Regressive Generative Models，会压缩数据。你可以直观看到它们为什么会起作用，如果你将数据压缩得非常好，你就能够提取其中存在的所有隐藏信息，这就是关键。

因此，这是我们真正兴奋的第一个想法，这导致了OpenAI中关于情感神经元Sentiment Neuron的一些工作，我将非常简要提到这一点。这项工作在机器学习领域之外，可能并不为人所知，但它非常有影响力，尤其是在我们思想中。

这项工作，就像那里的结果一样，当你训练一个神经网络时，它不是Transformer，而是在Transformer之前的模型。如果很多人记得的话，那是小型循环神经网络Recurrent Neural Networks，就是LSTM（Long Short-Term Memory）。

黄仁勋：完成一些序列到序列的工作，我意思是，这是你们自己做的一些工作。

Ilya Sutskever：因此，我们用相同的LSTM（Long Short-Term Memory）稍微调整一下，来预测Amazon评论的下一个字符。我们发现，如果你预测下一个字符足够好，就会有一个神经元在LSTM内对应于它的情绪。这真的很酷，因为它展示了无监督学习的一些效果，并验证了能够预测下一个字符，预测下一个想法。压缩具有发现数据中秘密的特性。

黄仁勋：这就是我们在这些GPT模型中看到的，对吧？你进行训练，人们说是统计相关性。

Ilya Sutskever：在这一点上，对我来说，它直接打开了我从哪里获得无监督学习数据的整个世界。因为我确实有很多数据，如果我能预测下一个字符，我知道真相是什么，我知道答案是什么，我可以用它训练一个神经网络模型。这个观察结果，以及其他技术、其他方法，打开了我的思路，让我意识到世界将从哪里获得所有无监督学习的数据。

我想是这样的。换一种说法，我会说在无监督学习中，困难点不在于从哪里获取数据，尽管现在也有这个问题。更多的是关于为什么要这样做？困难点是意识到训练这些神经网络以预测下一个token，是一个值得追求的目标。但实际上它并不那么明显，对吧？所以人们没有这样做。

但是情感神经元起作用了，我想说Alec Radford是真正推动许多进步的人。那时的情感神经元，这是在GPT-1之前，它是GPT-1的前身，它对我们的思维有很大的影响。

然后，Transformer出来了。我们立即想到，Oh my God，就是它了。于是，我们训练了GPT-1。

黄仁勋：在这个过程中，你一直相信，增加规模会改善这些模型的性能。更大的网络，更深的网络，更多的训练数据，将使它的规模变得更大。

OpenAI写了一篇非常重要的论文，讨论了模型规模变化规律，以及模型大小与数据集数量之间的关系。

当Transformer出现时，它给了我们在合理时间内训练大模型的机会。但对于模型规模变化规律，以及模型大小和数据集关系的直觉，相对于GPT-1、2、3，哪个先出现？你有看到GPT-1到GPT-3的发展路径吗？还是先有模型规模变化规律的直觉？

Ilya Sutskever：直觉。我想说，我有一个很强烈的信念，模型规模越大越好。在OpenAI，我们的一个目标是找出增加模型规模的正确途径。OpenAI一开始就对增加模型规模抱有很强的信念，问题是如何准确使用它。因为我现在提到的是GPT，但是还有另外一条非常重要的工作路线，我还没有提到。

第二个想法，我认为现在是一个好时机，那就是强化学习Reinforcement Learning。

这显然也很重要。我们在OpenAI中完成的第一个真正的大型项目，是解决一个实时战略游戏。或者说，实时战略游戏就像是一项竞技运动，你需要聪明，需要更快，需要快速反应，有团队合作。你正在与另一个团队竞争，这是非常、非常复杂的。并且这个游戏有一个完整的竞争联赛，这个游戏叫做DOTA 2。

因此，我们训练了一个强化学习AI代理来与自己对抗。目标是达到一定水平，以便可以与世界上最好的玩家竞争。这也是一个重大项目，它是一个非常不同的工作方向，就是强化学习。

黄仁勋：是的，我记得你们宣布这项工作。顺便说一句，当我早些问的时候，OpenAI已做了大量工作，有些看起来像是走了弯路。但事实上，正如你现在解释的那样，它们可能是弯路，看起来像是弯路，但它们真正导致了我们现在讨论的ChatGPT的一些重要工作。

ChatGPT

Ilya Sutskever：是的，我意思是，在GPT产生基础的地方，已经有了真正的融合。从基于DOTA的强化学习，变成了基于人类反馈的强化学习，这种组合带给了我们ChatGPT。

黄仁勋：这里有个误解，人们认为ChatGPT本身只是一个巨大的大型语言模型。但事实上，围绕着它的是一个相当复杂的系统。

你能为观众简单解释一下吗？包括它的微调，它的强化学习，你知道是周围的各种系统才能让它运作起来，让它提供知识等。

Ilya Sutskever：是的，我可以这样想，当我们训练一个大型神经网络来准确预测互联网上许多不同文本中的下一个词时，我们正在做的是，我们正在学习一个世界模型。看起来我们是在学习，表面上看起来，我们只是在学习文本中的统计相关性。但实际上，只是去学习文本中的统计相关性，就可以把这些知识压缩得非常好。

神经网络所学习的是生成文本过程中的一些表述，这个文本实际上是这个世界的一个映射，世界在这些文字上映射出来。

因此，神经网络正在学习从越来越多的角度去看待这个世界，看待人类与社会，看人们的希望、梦想、动机，以及相互间的影响和所处的情境。神经网络学习一种压缩、抽象、可用的表示形式。这是从准确预测下一个词中学到的东西。

此外，你对下一个词的预测越准确，还原度越高，在这个过程中你得到的世界的清晰度就越高，这就是预训练阶段的作用。但是，这并不能让神经网络表现出，我们希望它能够表现出的行为。

你看一个语言模型，它真正要做的是回答以下问题。如果我在互联网上有一些随机的文本，它以一些前缀、一些提示开始，它将补全什么内容？可能只是随机用互联网上的一些文本来补全它，这和我想拥有一个助手是不同的。

一个真实、有用、遵循某些规则的助手，是需要额外训练的。这就是微调Fine-tuning和基于人类反馈的强化学习RLHF（Reinforcement Learning from Human Feedback），以及其他形式的AI辅助可以发挥作用的地方。

不仅是基于人类反馈的强化学习，也是基于人类和AI合作的强化学习。人类老师与AI一起合作，去教导我们的AI模型。但不是教它新的知识，而是与它交流，向它传达我们希望它成为什么样子。

而这个过程，第二阶段，也是极其重要的。第二阶段做得越好，这个神经网络就越有用，越可靠。它不同于第一阶段，它尽可能多从世界的映射中学习这个世界的知识，也就是文字。

黄仁勋：你可以对它进行微调，你可以指示它执行特定任务，那么你可不可以指示它别做一些事情？你给它设置一些安全护栏，去避免某一类型的行为。也就是说给它一些边界，这样它就不会偏离这个边界，去执行那些不安全的事情。

Ilya Sutskever：是的，所以第二阶段的训练，确实是我们向神经网络传达我们想要的任何东西，包括边界。我们做得越好，我们传达的这个边界的精确度就越高。因此，我们通过不断的研究和创新来提高这种精确度。我们确实能够提高这种精确度，从而使它在遵循预期指令的方式上变得越来越可靠和精确。

GPT-4与ChatGPT区别

黄仁勋：ChatGPT在几个月前就发布了，它是人类史上增长最快的应用。关于它的原理已经有很多解释，这是为每个人创建的最容易使用的应用。它所执行的任务，做的事情超出人们期望，任何人都可以使用它。没有指令集，也没有所谓的错误方法，你只要用它就行。如果你的指令提示Prompt不够明确，你与ChatGPT的对话会帮你消除歧义，直到它理解你的意图。这带来的影响非常显著。

现在，这是GPT-4发布后的第一天。GPT-4在许多领域的表现令人震惊，在SAT、GRE、律师考试的分数都很高，一次又一次的测试，它的表现都很优异。很多项测试它都达到人类领先水平，太震撼了。那么，什么是ChatGPT和GPT-4之间的主要区别？是什么导致GPT-4在这些领域的改进？

Ilya Sutskever：GPT-4相比ChatGPT，在许多维度上做了相当大改进。我们训练了GPT-4，我记得是在6个多月前，也许是在8个月前，我不记得确切时间。GPT是ChatGPT和GPT-4之间的第一个区别，这也许是最重要的区别。在GPT-4的基础上预测下一个词，具有更高的准确度，这是非常重要的。因为神经网络越能预测文本中的下一个词，它就越能理解它。

这种说法现在也许已经被很多人接受了。但关于它为什么会这样，可能仍然不够直观，或说不完全直观。

我想绕个小弯，举个例子，希望能说明为什么对下一个词更准确的预测，会导致更多的理解，真正的理解。

让我们举个例子，假设你读了本侦探小说，它有复杂的故事情节，不同的人物，以及许多事件和神秘的线索。在书的最后一页，侦探收集了所有线索，召集了所有人，然后说“好吧，我要透露犯罪者的身份，那个人的名字是X”。我们需要预测这个词。当然，有许多不同的词，但是通过预测这些词，可以让模型实现更好的理解。随着对文本的理解不断增加，GPT-4预测下一个词的能力也会变得越来越好。

黄仁勋：很多人认为深度学习不会逻辑推理，但为了预测下一个词，从所有可选的角色里面，从他们的优势或弱点，或他们的意图和上下文中，找出谁是凶手，这需要一定的推理，需要相当多的推理。那么，它是如何能够学会推理的？

如果它学会了推理，我要问你的是ChatGPT和GPT-4之间进行的所有测试，有一些测试是GPT-3或ChatGPT已经非常擅长的，有一些测试是GPT-3或ChatGPT不擅长的，而GPT-4要好得多，还有一些测试是两者都不擅长，其中一些似乎与推理有关。

微积分中，它无法将问题分解成合理的步骤，并解决它。但在某些领域，它似乎展现了推理能力。在预测下一个词的时候，它是否在学习推理？它的局限性又是什么？现在的GPT-4将进一步提高其推理能力。

Ilya Sutskever：推理并不是一个很好定义的概念。但无论如何，我们可以尝试去定义它。它就是当你可能更进一步的时候，如果你能够以某种方式思考一下，并且因为你的推理而得到一个更好的答案。

我想说，我们的神经网络也许有某种限制，比如要求神经网络通过思考来解决问题。事实证明，这对推理非常有效。但我认为，基本的神经网络能走多远，还有待观察。我认为我们还没有充分挖掘它的潜力。

某种意义上，推理肯定还没有达到那个水平，神经网络还具备其它一些能力。我们希望神经网络要有很高的推理能力，我认为像往常一样神经网络能持续提升这个能力。不过，也不一定是这样。

可靠性

黄仁勋：是的，你问ChatGPT一个问题，这真的很酷，因为它在回答问题前，首先会告诉我，它知道些什么，然后才去回答这个问题。通常回答一个问题前，如果你告知我，你具备哪些基础知识或做了哪些假设，这会让我更相信你的回答。这在某种程度上，也是在展现推理能力。所以在我看来，ChatGPT天然具备这种内在的能力。

Ilya Sutskever：某种程度上，我们可以这样看待现在所发生的事情，这些神经网络具备很多能力，只是不太可靠。实际上，可以说可靠性是目前这些神经网络能够真正具备实用价值的最大障碍，尽管有时它们仍然具备实用价值。这些神经网络有时会产生一些幻想，或犯一些出人意料的错误，这是人不会犯的错误。

正是这种不可靠性，使得它们的实用价值大幅降低。但是我认为，或许通过更多研究，结合当前的想法和一些更远大的研究计划，我们一定能实现更高的可靠性，这样模型才会真的具备实用价值。

这将使我们能够拥有非常精确的保护措施，并且在不确定时要求澄清，或说它不知道某些事情，当它不知道时能非常可靠的表现出来。所以我认为，这是当前模型的一些瓶颈。因此，问题并不在它是否具备某些特定的能力，更多的是程度的问题。

黄仁勋：谈到真实性和幻想，我之前看过一个视频，它展示了GPT-4中从维基百科页面做检索的能力，那么GPT-4真的具备信息检索能力吗？它是否能够从事实中检索信息，以加强对你的响应？

Ilya Sutskever：当前发布的GPT-4，并没有内置检索能力，它只是个非常好的预测下一个词的工具，它也可以处理图像。

顺便说一句，一些高质量的图片，也是经过数据微调和各种强化学习的变体，以特定方式表现出来的。它也许会被一些有权限的人要求进行一些查询，并在上下文中填充结果，因为现在GPT-4的上下文持续时间更长了。简而言之，尽管GPT-4不支持内置的信息检索，但它完全具备这个能力，它也将通过检索变得更好。

多模态能力

黄仁勋：多模态GPT-4具备从文本和图像中学习，并对文本和图像输入做出响应的能力。

首先，多模态学习的基础是Transformer，它使得我们可以从多个模态中学习，例如把文本和图像token化。在此基础上，它还帮助我们理解多模态是如何增强对世界的认知。我的理解是，除了文本本身外，当你在训练多模态模型时，甚至仅仅使用文本提示词时，文本提示词本身就可以提升文本理解。从基础上来看，多模态为什么如此重要？重大突破是什么，以及由此产生的特征差异是什么？

Ilya Sutskever：有两个维度可以解释多模态学习的重要性，或说是两个原因让它变得有趣。

第一个原因有点谦虚，多模态是有用的，对于神经网络来说，看到多种形式的数据是有帮助的，特别是视觉数据。

因为世界是非常视觉化的，人类是非常视觉化的动物。人类大脑皮层的1/3都用于视觉，因此如果没有视觉，尽管我们神经网络的效用仍然相当可观，但效用可能不如想象的那么大。这是一个非常简单的效用性的论点。很显然，GPT-4可以看得很好。

第二个原因是，除了从文本学习之外，我们还可以从图像中学习这个世界的知识。这也是一个有力的论点，尽管它像看上去不是那么明确。

我给你举个例子，或说在举例之前，我要给出一个宽泛的说法，作为人类，我们在整个生命中只能听到大约10亿个词。

黄仁勋：只有10亿个词？

Ilya Sutskever：是的，只有10亿个词。

黄仁勋：真令人惊讶，这不是很多。

Ilya Sutskever：是的，不是很多。

黄仁勋：它包不包括我脑海里的词？

Ilya Sutskever：让它变成20亿，你懂我的意思吧。

你知道，因为10亿秒等于30年。所以你可以看到，我们每秒钟只能看到几个词，并且我们有一半的时间都在睡觉。我们在一生中只能获得几十亿个词。因此，对我们来说，获得尽可能多的信息来源变得非常重要，我们从视觉中学到的东西要多得多。

对我们的神经网络来说，同样的论点也是适用的。神经网络可以从相当多的词中学习，原本很难从几十亿词的文本中认知世界，可能会从数万亿词中变得更容易。

举个例子，比如颜色，人们需要看到颜色才能理解颜色。但是神经网络在一生中从没看过一张照片，如果你问它们哪些颜色彼此更相似，它知道红色比蓝色更接近橙色，它也知道蓝色比黄色更接近紫色。

这是怎么实现的？一个答案是这个世界的信息，甚至是视觉的信息会慢慢通过文本传播出去。但是它非常缓慢，不是很快速。所以当你有很多文本时，你仍然可以学习到很多东西。当然，当你加入视觉信息，并从视觉中学习知识，你就会学到额外的知识，这些知识是无法通过文本获得。

但我不会说，这是一个二元关系，有些东西无法从文本中学习到。我认为这更像是一种汇率，特别是当你想学习时，如果你像一个人一样从10亿个词或1亿个词中学习，那么有其他信息来源会变得重要得多。

黄仁勋：是的，你可以从图像中学习。是不是意味着，如果我们也想了解世界的结构，就像我的手臂连接着我的肩膀，再连接我的手肘就能移动，这个世界的动画，这个世界的物理，如果我也想了解这一点，我能只看视频就学会吗？

Ilya Sutskever：是的。

黄仁勋：如果我想扩展所有这些，例如，如果有人说grea”的意思，great可以是great太好了，great也可以是great还好。你知道，一个是兴奋的，一个是讽刺的。像这样的词还有很多，比如That's sick，指的是I’m sick我生病了，或I’m sick我恶心了。根据人们的语气不同，含义也不同。那么，音频对于模型学习也会有帮助吗？我们会好好利用它吗？

Ilya Sutskever：是的，我认为肯定是这样。关于音频，我们能说些什么？它很有用，它是一个额外的信息来源，可能不如视频、图片那样重要。但是，这种情况下还是有必要的。音频的实用性，无论是在识别方面还是在生成方面。

黄仁勋：在我看到的测试中，最有趣的是你们发布的数据，GPT-3在哪些测试中表现更好？GPT-4在哪些测试中表现更好？你认为多模态在这些测试中起了多少作用？

Ilya Sutskever：直观的说，每当有一个测试需要理解问题的图表时，比如说在某些数学竞赛中，比如高中生的数学竞赛AMC 12，很多问题可能都有图表。因此，GPT-3.5在测试中表现很差。GPT-4仅使用文本时的准确率，可能只有2%~20%，但当加入视觉时，它的成功率跃升至40%。因此，视觉确实做了很多工作。视觉非常出色，我认为能够进行视觉推理和视觉交流，我们也将变得非常强大，非常棒。

从我们对世界中仅仅几个事物的了解，发展到你可以了解整个世界，然后你可以把这个世界做视觉化的推理、视觉化的沟通。现在是在哪里，未来又在哪里？也许在某个未来版本中，如果你问神经网络“嘿，给我解释一下这个”，它将不仅产生4个段落，而是像一个小图表一样，清楚的传达给你需要知道的信息。

数据

黄仁勋：这真是不可思议。你之前还说过的一件事，是关于用AI生成测试，来训练另一个AI的事。

这让我想起了1篇论文，虽然我不确定其中的内容是否属实。据说在未来一段时间内，全世界大概有4万亿~20万亿的语言类tokens可以被用于训练模型。你知道，在一段时间内，可以用来训练的token会慢慢消耗殆尽。首先，我不知道你是否有同样的感觉？

其次，我们是否可以利用AI生成自己的数据来训练AI本身？你可能会反驳这是一个循环，但我们无时无刻不在用生成的数据，通过自我反省的方式，训练我们的大脑，并在脑海里思考某一个问题。

神经科学家会建议人们保持充足的睡眠，我们会做很多事情，比如睡眠，来发展我们的神经元。你如何看待合成数据生成领域？这是否会成为未来AI训练重要的一部分，AI能否自己训练自己？

Ilya Sutskever：我认为不应该低估现有的数据，我认为可能有比人们意识到的更多的数据。

至于你的第二个问题，这种可能性仍有待观察。

可信任性

黄仁勋：未来某些时候，当我们不使用AI时，它可能会生成对抗性的内容来进行学习，或想象着它需要解决的问题，不断提升自己，并告诉我们它能做什么。

关于我们现在在哪里，以及未来我们将会在哪里，时间不用很遥远，比如说可见的一两年，在最让你兴奋的领域中，你认为语言模型会走向何方？

Ilya Sutskever：预测是困难的，尤其是对太具体的事情。

我们有理由认为这个领域会持续进步，我们将继续看到AI系统在它的能力边界，让人类感到惊讶。AI的可靠性是由它是否可以被信任决定的，未来它肯定会达到能被完全信任的地步。如果它不能完全理解，它也会通过提问来弄清楚。它会告诉你自己不知道，但同时它会说需要更多的信息。

我认为AI可用性影响最大的领域，未来会有最大的进步。因为现在，我们就面临着一个挑战，你想让一个神经网络去总结长文档，获取摘要。挑战是，你能确定重要的细节没被忽略吗？

这仍然是一个有用的摘要，但当你知道所有重要的点都被涵盖时，就会产生不同的结果。在某个时刻，尤其是当存在歧义时，这也是可以接受的。

但如果某个点明显很重要，以至于任何其他看到该点的人都会说这真的很重要，当神经网络也能可靠的识别到这一点时，你就会知道它可信度提高了。这同样适用于防护栏。它是否清楚的遵循用户的意图，也会成为衡量可靠性的标准。未来2年，我们会看到很多这样的技术。

GPT-4的能力

黄仁勋：是的，这太棒了。这两个领域的进步将使这项技术变得值得信赖，使它能够应用于许多事情。

这本应该是最后一个问题，但是我的确还有另外一个问题，抱歉。从ChatGPT到GPT-4，你是什么时候第一次开始使用GPT-4的？它表现出来什么样的能力，让你感到惊讶？

Ilya Sutskever：它展示了很多很酷的东西，非常惊人。它非常棒，我会提到两点，我在想怎么才可以更好表达。

简单来说，它的可靠性水平让人感到惊讶。在此之前的神经网络，如果你问它一个问题，它可能会以一种近乎愚蠢的方式误解问题，但在GPT-4上这种情况已经不再发生。

它解决数学问题的能力大大提高了，你可以认为它真的进行了推导，很长的、复杂的推导，并且还转换了单位等，这真的很酷。

黄仁勋：它是通过一步步的证明来工作的，这真的很神奇。

Ilya Sutskever：不是所有的证明，但起码有很大一部分是的。

另外一个例子，就像许多人注意到它可以用同一个字母开头的单词写诗，每个单词都很清晰遵循指令。虽然仍不完美，但已经非常好。

在视觉方面，我真的很喜欢它是如何解释笑话的。它可以解释网络热梗，你给它看一个网络热梗，并询问它这个为什么好笑，它会告诉你原因，并且它说的还是对的。

我认为，在视觉部分，它就像真的可以看到那些图像。你用一些复杂的图像或图表来追问它问题，然后得到解释，这非常酷。

但总的来说，我已经从事这项工作很长时间，实际上几乎整整20年。最让我感到惊讶的是，它真的运行起来了。它似乎一直以来对人们来说都是个小事，但它现在不再渺小，变得更重要、更强烈。

它还是那个神经网络，只是变得更大，在更大的数据集上，以不同的方式训练，但训练的基础算法都是一样的，这是最令我惊讶的。

每当我回顾时，我就会想，这些概念性想法怎么可能呢？大脑有神经元，也许人工神经元也一样好，我们可能只需要用某种学习算法对它们进行训练。那些论点竟然如此正确，这本身就是最大的惊喜。

黄仁勋：在我们相识的10年里，你训练的模型和数据量，从你在AlexNet上所做的工作到现在，增加了约100万倍。

在计算机科学界，没有人会相信在这10年间，计算量会扩大100万倍。并且你的整个职业生涯都致力于此，你有2个开创性的研究成果，早期的AlexNet和现在OpenAI的GPT，你所取得的成就真了不起。

很高兴能再次与你进行思想上的碰撞，我的朋友Ilya，这是一个相当美妙的时刻，今天的对话，你将问题抽丝剥茧，逐一解释。

这是最好的博士学位之一，除了博士学位，你还描述了大型语言模型的最新技术水平。

我真的很感激，很高兴见到你，恭喜你，非常感谢你。

引用

Topic Tags

28 论坛
10.1 K 话题
13.5 K 帖子
14 在线
190 成员

Forum Icons: Forum contains no unread posts Forum contains unread posts

话题图标: Not Replied 回复活跃热门置顶未过审已解决私密的已经关闭

由 wpForo version 2.4.17

【声明】：禅世界论坛尊重言论自由，任何人可讨论佛法、政经、生活和科技等话题。言论发表前请根据常识和法规自审。论坛管理员和版主有权删除任何不当内容。使用本论坛即表示接受【禅世界论坛规则】。【论坛使用帮助】。 【禅世界免责声明】。

【Chanworld.org】2017.06.06-2021.04.30-2025.04.10-MG-RM

黄仁勋对话Ilya Sutskever：揭示ChatGPT如何诞生，展望AI大模型未来

分享：