禅世界论坛

<- 社交登陆。【论坛使用帮助】
清华魏少军:AI Chip 2.0,终...
 
Notifications
Clear all

清华魏少军:AI Chip 2.0,终极智慧芯片

1
1 Users
0 Likes
949 查看
Many
 Many
(@many)
Illustrious Member Admin Registered
已加入: 7 年 前
帖子: 11012
Topic starter  

清华卫绍军:AI Chip 2.0,终极智慧芯片

3月15日,由智尚主办,AWE和Jiguo共同主办的AI芯片创新峰会在上海成功举办!参加峰会的观众涉及近4500家公司,观众非常专业。董事及以上人员占62%以上,实际参加人数超过1,800人。

会议期间,20位人工智能和AI芯片领域的专家齐聚一堂,系统地讨论了AI芯片在建筑创新,生态建设和场景着陆方面的技术前景和行业趋势。

中国半导体行业协会IC设计分会理事,清华大学微电子研究所所长魏少军

魏少军教授是国内集成电路产业的领导者。他是清华大学微电子研究所所长,中国半导体行业协会IC设计分会主席。他从定义,背景,标准和发展趋势中领导了《人工智能芯片技术白皮书》的准备工作。对AI芯片进行深入而专业的研究填补了国内空白。

在现场,魏少君教授以《AI Chip 2.0 的愿景和实现路径》为主题致开幕词。

终端AI成为未来的主导市场

魏少军教授认为,目前大多数人工智能服务都在云端,因为云端已经有大量的AI应用,如智能家居,图像识别,智能医疗,人工智能翻译等。

然而,终端方面的应用是一个更大的潜在市场,人工智能从“云”转向“结束”是不可避免的。展望未来几年的发展,终端应用将占据AI市场的主导地位。

对于终端应用,功耗限制将是AI芯片的一大挑战。

例如,可穿戴设备的功耗需要限制在mW级别;视频监控,工业和农业应用需要限制在W级别;并且自动驾驶仪和数据中心等AI芯片的功耗可以达到100W。计算需求相关功耗的极限是一个非常难以解决的问题。

与此同时,正如魏少军教授在2018年GTIC AI芯片峰会上提出的那样,另一个挑战是当前AI芯片面临的两个问题:

该算法仍在不断发展,新算法正在兴起。制造芯片的人最害怕算法改变,它将重新开始。

2.算法对应于应用程序,并且没有统一的AI算法。多个AI功能需要将多个AI芯片放在一起。

因此,高性能通用深度学习引擎是AI芯片的必备功能。对于终端AI芯片,该引擎最重要的特性是高能效,它必须具有高计算能力和低功耗。

AI芯片需要1000多倍的能源效率

下图是去年ISCA演讲中Kunle Olukotun的PPT。他将芯片分为三部分。第一部分是更多CPU,第二部分是少量编程,如GPU,第三部分是不可编程的。比如专用芯片。

它们之间的重要区别在于可编程性之外的能效差异。从专用芯片到GPU的能效差距为1000倍。 1000次是一个非常重要的分界线。如果我们的AI芯片的能效不是GPU的1000倍,那么就无法满足终端方面人们的需求。

对于最终的AI芯片,预计它具有高能效和良好的可编程性,例如图中红圈的位置。这是什么东西?

对于这种AI芯片,不仅要注意软件的可编程性,更重要的是要注意硬件的可编程性。

AI Chip 2.0:终极智能芯片

最后,魏少军教授还就AI芯片开发的四个阶段发表了看法:

1. AI Chip 0.5阶段。这是一个非常早期的阶段。人们使用CPU和GPU等现有芯片来尝试实现AI功能。

2. AI Chip 1.0阶段。在这个阶段,无论是谷歌的TPU,麻省理工学院的Eyeriss,NVIDIA的SCNN等都是专门为AI设计的,它主要用于AI培训,我们有专门为AI设计的芯片。

3. AI Chip 1.5阶段。 AI Chip 1.5阶段已经开始探索所谓的多功能性,因此像Tsing Micro这样的Thinker和Wave Computing的DPU处于1.5阶段。它们是半通用的,可重新配置和可配置的。

4. AI Chip 2.0阶段。什么是2.0?到目前为止我们没有答案。但我们可以想象2.0应该是一个多功能,自适应,智能的架构和芯片。我们正在努力寻找通用的AI处理器,但这将非常困难。

AI 0.5和1.0主要围绕云AI,以培训为主题,因为主要参与者都是大型互联网公司,因此他们自然会专注于培训水平。变化从AI 1.0开始到1.5,更多地在焦点边缘,终端以及1.5到2.0之间,云和末端可以组合。

与此同时,在0.5和1.0阶段,我们有1.5个阶段,能源效率和2.0,智慧将成为主流。

对于芯片设计人员来说,如何使芯片智能化是一个重要的结。

现在,筹码在竞争中获胜最重要的是差异化,但差异化太难了。通常,芯片设计人员将花费六个月的时间来定义芯片,花费六个月的时间来制造芯片,并将其销售六个月。卖掉后,我发现市场上有类似的东西。所以我必须退后一步。

芯片制造商在定义 - 设计 - 销售 - 重新定义 - 重新设计 - 再销售的迭代中循环,随着时间的推移,差异化逐渐缩小。

附有魏少君教授的讲话

魏少君:大家早上好!感谢组织者邀请我再次进行开场报告,在开始之前我有一个小小的要求。请求是:请让这里的媒体朋友不要在互联网上发表评论并将我的演讲放在互联网上,这让我感到被阉割。每个想写的人都必须反映出我想说的本质。我知道每个人都有点急于抓住这个消息,但我仍然希望报告能够更加完整,不应该有任何离谱现象,造成误解,特别是不要让观众误解。

今天我只有14个PPT,其中有三个是去年提到的。在过去的一年里,我已经想了很多,但我可以专注于它并使用两个来完成它,所以我认为它很快就会完成,而且不会花费很多时间。

这是我上次PPT给出的问题:我们是否有一个像CPU一样通用的AI处理器?如果是这样的话,今天的AI芯片怎么样?当然,我也提出了一个问题,未来的AI芯片很可能会遇到一些挫折。事实是已经说过的一些事情。他们中的一些人不想说中间的,所以很可惜。

无论如何,我们可以看到今天的AI服务基本上都在云上,很少出现在其他地方。是什么原因?原因是开拓者在云上做了大量工作,包括智能家庭,图像认知,智能医疗,人工智能翻译等。但我们说从“云”到“边缘”,从云到边缘是一个大趋势。事实上,不同地区的用户数量差异很大,相差100个数量级。如果我们在云中拥有10个8次幂,则物联网中将有10个12次幂。

谷歌还在2018年峰会上提出了一个非常有趣的系统框架。无论何种AI,都需要从现实社会中获取数据,将原始数据转换为语义数据,最后让Cloud处理它。

在人工智能走向边缘的过程中,似乎“通用汽车”是主要推动力,但从未来几年的发展看,恐怕终端应用将占据主导地位,特别是到2025年,家电作为主要应用。现场的ASIC和专用的AI芯片将发挥重要的主导作用,这也是我们未来发展的重要方向。

当然,当我们谈论芯片时,我们肯定会遇到我在去年谈到的PPT中提到的两个问题:首先,算法不断发展并不断变化。我们制造芯片的人最害怕算法正在改变,我们无法跟上它;第二是我们仍缺乏通用的算法。当您将多个AI功能组合在一起时,您肯定必须使用多个AI芯片,而您无法做到完整的解决方案。当然,我们希望拥有对各种算法都有效的芯片,我们可以找到一种新的统一解决方案,但这非常困难。

既然如此,我们正在考虑需要一种所谓的通用深度学习引擎。如果将其推到边缘,您会发现该发动机最重要的特性必须是节能的。在高计算能力和低功耗的驱动下,很明显需要以何种方式仔细考虑好的芯片。

通过对具体参考场景的分析,可以发现:可穿戴设备,智能传感器等的功耗限制在1mW;家电近100mW;视频监控,工业和农业应用可能是W,但2T计算能力;和汽车数据中心可以是100W,但至少20T的计算能力。计算需求的功耗限制是我们一直面临的一个非常困难的问题。

我们想知道什么样的架构来满足不同的需求?正如Kunle Olukotun先前的ISCA演讲所示。横轴使用1,2,3,4到16,我一直无法理解为什么他用这个,然后我问,据说这是芯片的数量,而不是代表使用了多少芯片。这个地方容易产生误解。但它清楚地告诉我们,我们可以将芯片分为三个部分。第一部分可以编程更多,第二部分是少量编程,第三部分是无编程。

显然,可以有更多的编程,如CPU,具有一定编程能力的GPU,以及没有编程的专用芯片。可以看出,这些人之间存在着重要的差距,就是能效差距。如果我们仔细观察一下,我们可以看到Dedicated和GPU Blue Line之间有1000倍的差距,1000次是非常重要的一点。这条线,如果芯片不能做到这一点,显然不会达到目标。

那么我们想要最后一块芯片在哪个区域呢?显然,在红色区域,该区域具有高能效和良好的可编程性。但是这部分的内容是什么?

我们正在寻找什么是“软件定义芯片”架构?我们将软件和硬件可编程性作为构成四个象限的两个轴。可以看出,传统的CPU和DSP必须处于第二象限;我们所知道的ASIC位于第三象限,软件和硬件可编程性差,具有高能效的优点;我们知道的FPGA和EPLD必然位于第四象限。

如果你把已知的芯片放在第二,第三和第四象限的三个象限中,那么第一象限的一定是奇怪的吗?对应于第一象限的芯片应具有良好的软件可编程性和良好的硬件可编程性。如果这两者都成立,那恰恰就是刚刚提到的“软件定义芯片”,不仅是软件可编程的,更重要的是,硬件也是可编程的。

凭借“软件定义芯片”的雄心,我们现在可以谈论AI芯片2.0的愿景和实施路径。什么是AI Chip 2.0?我们拉出一个水平轴并从AI Chip 0.5,1.0,1.5扩展到2.0。

1. AI Chip 0.5阶段。可以看出,AI Chip 0.5是一个非常早期的阶段,主要是像Intl的CPU,Nvidia的GPU,AD的DSP等。这些芯片不是用于AI,而是长期存在的。我们只是尝试使用现有的芯片来实现AI功能。这时,我们成了AI Chip 0.5。

2. AI Chip 1.0阶段。在这个阶段,无论是谷歌的TPU,麻省理工学院的Eyeriss,nVidia的SCNN还是KAIST的UNPU,它都是专门为AI设计的。我称之为AI Chip 1.0。他们的主要工作是进行培训,我们可以将它们视为特定领域的事物,或者作为扩展。 AI Chip 1.0是专为AI设计的芯片。

3. AI Chip 1.5阶段。 AI Chip 1.5的开发非常有趣。我认为AI Chip 1.5已经开始探索所谓的多功能性,因此像Tsing Micro和Wave Computing的DPU这样的Thinker属于AI Chip 1.5。它们是半通用的,可重新配置的,可配置的,并且兼顾了培训和推理。

当然,我们希望最终能够获得AI Chip 2.0。什么是AI Chip 2.0?今天没有答案。但是,我们可以考虑一下。首先它应该是通用的,然后它应该是自适应的,最重要的是它应该是智能的。如果我们真的找到这样的芯片架构,这就回答了我的最后一个问题:是否有通用的AI处理器?我们正朝着这个方向努力。显然这很困难。

如果我们在AI Chip 0.5中使用了一些传统设备,AI Chip 1.0就是特定于域的,而且AI Chip 1.5是可重新配置和可配置的。 AI Chip 2.0应该是智能的。

AI Chip 0.5和1.0主要围绕云应用,主要是培训。由于主要是大型互联网公司占主导地位,他们自然会专注于培训水平。从AI Chip 1.0到1.5,情况开始发生变化,更多地关注边缘,EDGE。可以想象,当AI Chip 1.5到2.0时,需要组合训练和推理。

AI Chip 0.5当我们执行Performance时,我希望它的计算能力足够强大; AI Chip 1.0不仅在AI Chip 1.5时,而且在AI Chip 2.0的同时提高了能效,相信智慧将成为主旋律。

可以看出上述各个阶段。在早期,只要有更多,就会实施更多;当涉及到AI Chip 1.0时,应用程序成为关键;当AI Chip 1.5是AI Chip 2.0时。

虽然我们可能不同意这种AI芯片的开发阶段,但我们认为这是总结或总结现有AI芯片整体发展方向的好方法。

此外,我的同事已经描绘了节能神经网络的发展方向。垂直轴是不断创新的架构,而水平轴显示不同的神经网络模型。中间是通过算法设计和硬件设计。结合产生更小的延迟,更高的能源效率和更多样化的产品。

当然,右上角显示了使硬件更“忙”以向最终应用程序提供紧凑并行计算的愿望;通过使算法更灵活地提供大规模并行计算,左下方更加面向云。几种不同的方式可以通过这样的图片显示相应的发展方向和“路线图”。可以进一步优化该图片以供进一步考虑。如果这张照片被大家所接受,它可能对未来具有重要的指导意义。

我们花了六个月的时间来定义一个芯片,用了六个月的时间来制造一个芯片,并且销售了六个月,前后18个月。这很难卖,但发现市场几乎一样。同样的事情,老板很快就会对你感到焦虑:抱歉,你怎么做,很快回来。我们正在开始新一轮的迭代。因此,我们继续在定义 - 设计 - 销售 - 重新定义 - 重新设计 - 再销售的循环中进行迭代,因为产品的差异化随着时间的推移逐渐缩小。

但房间里的每个人都想过这件事。我们出生的时候都是48到52厘米。他们都是小孩,他们类似于吃喝。为什么20或30年后,每个人都改变了另一个人。这是为什么?我们变化越多,差异就越大。这里的关键点是,我们通过接受教育和自我学习来改变自己和他人。

问题是,我们能否以这种方式使芯片与其他人的芯片不同?如果我们这样做,我们的芯片是否更有价值,而不是它们更有价值?如果它更有价值,它的价值越高,它在市场上的使用就越好,而不是越糟糕。这个问题是我们希望解决的问题。使芯片成为智能芯片是我们的目标。我希望通过对这张图片的解释,让我们知道我和我的团队目前正在考虑的问题。


   
引用
Share:

【声明】:禅世界论坛尊重言论自由,任何人可讨论佛学、政经、生活和科技等话题。在言论发表前请根据常识和法规自审。论坛管理员和版主有权删除任何不当内容。使用本论坛即表示接受【禅世界论坛规则】【论坛使用帮助】。 【禅世界免责声明】


【Chanworld.org】2017.06.06-2021.04.30-2023.04.10-MG