禪世界論壇

<- 社交登陸。【論壇使用幫助】
清華魏少軍:AI Chip 2.0,終...
 
Notifications
Clear all

清華魏少軍:AI Chip 2.0,終極智慧晶元

1
1 Users
0 Likes
948 查看
Many
 Many
(@many)
Illustrious Member Admin Registered
已加入: 7 年 前
帖子: 11012
Topic starter  

清華衛紹軍:AI Chip 2.0,終極智慧晶元

3月15日,由智尚主辦,AWE和Jiguo共同主辦的AI晶元創新峰會在上海成功舉辦!參加峰會的觀眾涉及近4500家公司,觀眾非常專業。董事及以上人員佔62%以上,實際參加人數超過1,800人。

會議期間,20位人工智慧和AI晶元領域的專家齊聚一堂,系統地討論了AI晶元在建築創新,生態建設和場景著陸方面的技術前景和行業趨勢。

中國半導體行業協會IC設計分會理事,清華大學微電子研究所所長魏少軍

魏少軍教授是國內集成電路產業的領導者。他是清華大學微電子研究所所長,中國半導體行業協會IC設計分會主席。他從定義,背景,標準和發展趨勢中領導了《人工智慧晶元技術白皮書》的準備工作。對AI晶元進行深入而專業的研究填補了國內空白。

在現場,魏少君教授以《AI Chip 2.0 的願景和實現路徑》為主題致開幕詞。

終端AI成為未來的主導市場

魏少軍教授認為,目前大多數人工智慧服務都在雲端,因為雲端已經有大量的AI應用,如智能家居,圖像識別,智能醫療,人工智慧翻譯等。

然而,終端方面的應用是一個更大的潛在市場,人工智慧從「雲」轉向「結束」是不可避免的。展望未來幾年的發展,終端應用將佔據AI市場的主導地位。

對於終端應用,功耗限制將是AI晶元的一大挑戰。

例如,可穿戴設備的功耗需要限制在mW級別;視頻監控,工業和農業應用需要限制在W級別;並且自動駕駛儀和數據中心等AI晶元的功耗可以達到100W。計算需求相關功耗的極限是一個非常難以解決的問題。

與此同時,正如魏少軍教授在2018年GTIC AI晶元峰會上提出的那樣,另一個挑戰是當前AI晶元面臨的兩個問題:

該演算法仍在不斷發展,新演算法正在興起。製造晶元的人最害怕演算法改變,它將重新開始。

2.演算法對應於應用程序,並且沒有統一的AI演算法。多個AI功能需要將多個AI晶元放在一起。

因此,高性能通用深度學習引擎是AI晶元的必備功能。對於終端AI晶元,該引擎最重要的特性是高能效,它必須具有高計算能力和低功耗。

AI晶元需要1000多倍的能源效率

下圖是去年ISCA演講中Kunle Olukotun的PPT。他將晶元分為三部分。第一部分是更多CPU,第二部分是少量編程,如GPU,第三部分是不可編程的。比如專用晶元。

它們之間的重要區別在於可編程性之外的能效差異。從專用晶元到GPU的能效差距為1000倍。 1000次是一個非常重要的分界線。如果我們的AI晶元的能效不是GPU的1000倍,那麼就無法滿足終端方面人們的需求。

對於最終的AI晶元,預計它具有高能效和良好的可編程性,例如圖中紅圈的位置。這是什麼東西?

對於這種AI晶元,不僅要注意軟體的可編程性,更重要的是要注意硬體的可編程性。

AI Chip 2.0:終極智能晶元

最後,魏少軍教授還就AI晶元開發的四個階段發表了看法:

1. AI Chip 0.5階段。這是一個非常早期的階段。人們使用CPU和GPU等現有晶元來嘗試實現AI功能。

2. AI Chip 1.0階段。在這個階段,無論是谷歌的TPU,麻省理工學院的Eyeriss,NVIDIA的SCNN等都是專門為AI設計的,它主要用於AI培訓,我們有專門為AI設計的晶元。

3. AI Chip 1.5階段。 AI Chip 1.5階段已經開始探索所謂的多功能性,因此像Tsing Micro這樣的Thinker和Wave Computing的DPU處於1.5階段。它們是半通用的,可重新配置和可配置的。

4. AI Chip 2.0階段。什麼是2.0?到目前為止我們沒有答案。但我們可以想像2.0應該是一個多功能,自適應,智能的架構和晶元。我們正在努力尋找通用的AI處理器,但這將非常困難。

AI 0.5和1.0主要圍繞雲AI,以培訓為主題,因為主要參與者都是大型互聯網公司,因此他們自然會專註於培訓水平。變化從AI 1.0開始到1.5,更多地在焦點邊緣,終端以及1.5到2.0之間,雲和末端可以組合。

與此同時,在0.5和1.0階段,我們有1.5個階段,能源效率和2.0,智慧將成為主流。

對於晶元設計人員來說,如何使晶元智能化是一個重要的結。

現在,籌碼在競爭中獲勝最重要的是差異化,但差異化太難了。通常,晶元設計人員將花費六個月的時間來定義晶元,花費六個月的時間來製造晶元,並將其銷售六個月。賣掉後,我發現市場上有類似的東西。所以我必須退後一步。

晶元製造商在定義 - 設計 - 銷售 - 重新定義 - 重新設計 - 再銷售的迭代中循環,隨著時間的推移,差異化逐漸縮小。

附有魏少君教授的講話

魏少君:大家早上好!感謝組織者邀請我再次進行開場報告,在開始之前我有一個小小的要求。請求是:請讓這裡的媒體朋友不要在互聯網上發表評論並將我的演講放在互聯網上,這讓我感到被閹割。每個想寫的人都必須反映出我想說的本質。我知道每個人都有點急於抓住這個消息,但我仍然希望報告能夠更加完整,不應該有任何離譜現象,造成誤解,特別是不要讓觀眾誤解。

今天我只有14個PPT,其中有三個是去年提到的。在過去的一年裡,我已經想了很多,但我可以專註於它並使用兩個來完成它,所以我認為它很快就會完成,而且不會花費很多時間。

這是我上次PPT給出的問題:我們是否有一個像CPU一樣通用的AI處理器?如果是這樣的話,今天的AI晶元怎麼樣?當然,我也提出了一個問題,未來的AI晶元很可能會遇到一些挫折。事實是已經說過的一些事情。他們中的一些人不想說中間的,所以很可惜。

無論如何,我們可以看到今天的AI服務基本上都在雲上,很少出現在其他地方。是什麼原因?原因是開拓者在雲上做了大量工作,包括智能家庭,圖像認知,智能醫療,人工智慧翻譯等。但我們說從「雲」到「邊緣」,從雲到邊緣是一個大趨勢。事實上,不同地區的用戶數量差異很大,相差100個數量級。如果我們在雲中擁有10個8次冪,則物聯網中將有10個12次冪。

谷歌還在2018年峰會上提出了一個非常有趣的系統框架。無論何種AI,都需要從現實社會中獲取數據,將原始數據轉換為語義數據,最後讓Cloud處理它。

在人工智慧走向邊緣的過程中,似乎「通用汽車」是主要推動力,但從未來幾年的發展看,恐怕終端應用將佔據主導地位,特別是到2025年,家電作為主要應用。現場的ASIC和專用的AI晶元將發揮重要的主導作用,這也是我們未來發展的重要方向。

當然,當我們談論晶元時,我們肯定會遇到我在去年談到的PPT中提到的兩個問題:首先,演算法不斷發展並不斷變化。我們製造晶元的人最害怕演算法正在改變,我們無法跟上它;第二是我們仍缺乏通用的演算法。當您將多個AI功能組合在一起時,您肯定必須使用多個AI晶元,而您無法做到完整的解決方案。當然,我們希望擁有對各種演算法都有效的晶元,我們可以找到一種新的統一解決方案,但這非常困難。

既然如此,我們正在考慮需要一種所謂的通用深度學習引擎。如果將其推到邊緣,您會發現該發動機最重要的特性必須是節能的。在高計算能力和低功耗的驅動下,很明顯需要以何種方式仔細考慮好的晶元。

通過對具體參考場景的分析,可以發現:可穿戴設備,智能感測器等的功耗限制在1mW;家電近100mW;視頻監控,工業和農業應用可能是W,但2T計算能力;和汽車數據中心可以是100W,但至少20T的計算能力。計算需求的功耗限制是我們一直面臨的一個非常困難的問題。

我們想知道什麼樣的架構來滿足不同的需求?正如Kunle Olukotun先前的ISCA演講所示。橫軸使用1,2,3,4到16,我一直無法理解為什麼他用這個,然後我問,據說這是晶元的數量,而不是代表使用了多少晶元。這個地方容易產生誤解。但它清楚地告訴我們,我們可以將晶元分為三個部分。第一部分可以編程更多,第二部分是少量編程,第三部分是無編程。

顯然,可以有更多的編程,如CPU,具有一定編程能力的GPU,以及沒有編程的專用晶元。可以看出,這些人之間存在著重要的差距,就是能效差距。如果我們仔細觀察一下,我們可以看到Dedicated和GPU Blue Line之間有1000倍的差距,1000次是非常重要的一點。這條線,如果晶元不能做到這一點,顯然不會達到目標。

那麼我們想要最後一塊晶元在哪個區域呢?顯然,在紅色區域,該區域具有高能效和良好的可編程性。但是這部分的內容是什麼?

我們正在尋找什麼是「軟體定義晶元」架構?我們將軟體和硬體可編程性作為構成四個象限的兩個軸。可以看出,傳統的CPU和DSP必須處於第二象限;我們所知道的ASIC位於第三象限,軟體和硬體可編程性差,具有高能效的優點;我們知道的FPGA和EPLD必然位於第四象限。

如果你把已知的晶元放在第二,第三和第四象限的三個象限中,那麼第一象限的一定是奇怪的嗎?對應於第一象限的晶元應具有良好的軟體可編程性和良好的硬體可編程性。如果這兩者都成立,那恰恰就是剛剛提到的「軟體定義晶元」,不僅是軟體可編程的,更重要的是,硬體也是可編程的。

憑藉「軟體定義晶元」的雄心,我們現在可以談論AI晶元2.0的願景和實施路徑。什麼是AI Chip 2.0?我們拉出一個水平軸並從AI Chip 0.5,1.0,1.5擴展到2.0。

1. AI Chip 0.5階段。可以看出,AI Chip 0.5是一個非常早期的階段,主要是像Intl的CPU,Nvidia的GPU,AD的DSP等。這些晶元不是用於AI,而是長期存在的。我們只是嘗試使用現有的晶元來實現AI功能。這時,我們成了AI Chip 0.5。

2. AI Chip 1.0階段。在這個階段,無論是谷歌的TPU,麻省理工學院的Eyeriss,nVidia的SCNN還是KAIST的UNPU,它都是專門為AI設計的。我稱之為AI Chip 1.0。他們的主要工作是進行培訓,我們可以將它們視為特定領域的事物,或者作為擴展。 AI Chip 1.0是專為AI設計的晶元。

3. AI Chip 1.5階段。 AI Chip 1.5的開發非常有趣。我認為AI Chip 1.5已經開始探索所謂的多功能性,因此像Tsing Micro和Wave Computing的DPU這樣的Thinker屬於AI Chip 1.5。它們是半通用的,可重新配置的,可配置的,並且兼顧了培訓和推理。

當然,我們希望最終能夠獲得AI Chip 2.0。什麼是AI Chip 2.0?今天沒有答案。但是,我們可以考慮一下。首先它應該是通用的,然後它應該是自適應的,最重要的是它應該是智能的。如果我們真的找到這樣的晶元架構,這就回答了我的最後一個問題:是否有通用的AI處理器?我們正朝著這個方向努力。顯然這很困難。

如果我們在AI Chip 0.5中使用了一些傳統設備,AI Chip 1.0就是特定於域的,而且AI Chip 1.5是可重新配置和可配置的。 AI Chip 2.0應該是智能的。

AI Chip 0.5和1.0主要圍繞雲應用,主要是培訓。由於主要是大型互聯網公司佔主導地位,他們自然會專註於培訓水平。從AI Chip 1.0到1.5,情況開始發生變化,更多地關注邊緣,EDGE。可以想像,當AI Chip 1.5到2.0時,需要組合訓練和推理。

AI Chip 0.5當我們執行Performance時,我希望它的計算能力足夠強大; AI Chip 1.0不僅在AI Chip 1.5時,而且在AI Chip 2.0的同時提高了能效,相信智慧將成為主旋律。

可以看出上述各個階段。在早期,只要有更多,就會實施更多;當涉及到AI Chip 1.0時,應用程序成為關鍵;當AI Chip 1.5是AI Chip 2.0時。

雖然我們可能不同意這種AI晶元的開發階段,但我們認為這是總結或總結現有AI晶元整體發展方向的好方法。

此外,我的同事已經描繪了節能神經網路的發展方向。垂直軸是不斷創新的架構,而水平軸顯示不同的神經網路模型。中間是通過演算法設計和硬體設計。結合產生更小的延遲,更高的能源效率和更多樣化的產品。

當然,右上角顯示了使硬體更「忙」以向最終應用程序提供緊湊並行計算的願望;通過使演算法更靈活地提供大規模並行計算,左下方更加面向雲。幾種不同的方式可以通過這樣的圖片顯示相應的發展方向和「路線圖」。可以進一步優化該圖片以供進一步考慮。如果這張照片被大家所接受,它可能對未來具有重要的指導意義。

我們花了六個月的時間來定義一個晶元,用了六個月的時間來製造一個晶元,並且銷售了六個月,前後18個月。這很難賣,但發現市場幾乎一樣。同樣的事情,老闆很快就會對你感到焦慮:抱歉,你怎麼做,很快回來。我們正在開始新一輪的迭代。因此,我們繼續在定義 - 設計 - 銷售 - 重新定義 - 重新設計 - 再銷售的循環中進行迭代,因為產品的差異化隨著時間的推移逐漸縮小。

但房間里的每個人都想過這件事。我們出生的時候都是48到52厘米。他們都是小孩,他們類似於吃喝。為什麼20或30年後,每個人都改變了另一個人。這是為什麼?我們變化越多,差異就越大。這裡的關鍵點是,我們通過接受教育和自我學習來改變自己和他人。

問題是,我們能否以這種方式使晶元與其他人的晶元不同?如果我們這樣做,我們的晶元是否更有價值,而不是它們更有價值?如果它更有價值,它的價值越高,它在市場上的使用就越好,而不是越糟糕。這個問題是我們希望解決的問題。使晶元成為智能晶元是我們的目標。我希望通過對這張圖片的解釋,讓我們知道我和我的團隊目前正在考慮的問題。


   
引用
Share:

【聲明】:禪世界論壇尊重言論自由,任何人可討論佛學、政經、生活和科技等話題。在言論發表前請根據常識和法規自審。論壇管理員和版主有權刪除任何不當內容。使用本論壇即表示接受【禪世界論壇規則】【論壇使用幫助】。 【禪世界免責聲明】


【Chanworld.org】2017.06.06-2021.04.30-2023.04.10-MG