| <- 社交账号登录。或禅世界会员登录。【论坛使用帮助】 |
低调的中国自主处理器申威:媲美Intel
作者 赵剑楠
相对于从诞生之初就处于舆论风口浪尖的龙芯,国内另一款走全自主道路的芯片——申威,相比之下就低调得多。
无论是传统纸媒还是网络媒体,申威的曝光率比起龙芯、海思、展讯等国产芯片都要低得多,而且相比于嘲讽天赋技能被点满的龙芯,申威极少成为网媒和充满虐气的网民的攻击对象。申威的军方背景更是给它带一缕神秘的色彩。下面,让我们一起走进申威,解密申威的“芯”路历程。
申威由总参谋部第五十六研究所(无锡江南计算技术研究所)设计,上海高性能集成电路设计中心是56所的马甲。
该研究所创建于1951年6月,坐落于无锡。主要研究方向有计算机系统结构、并行/分布处理与智能计算机系统、计算机软件、人工智能与智能控制、计算机与通信、计算机信息处理与应用。八十年代以来,在计算机、通信及机电一体化等领域共荣获国家、军队科学技术成果奖300多项,其中国家科学技术进步特等奖3项,军队科学技术进步一等奖35项。1987、2000年,中央军委两次为56所荣记集体一等功。1993年中央军委授予56所“勇攀科技高峰先进研究所”荣誉称号。
申威属于Alpha阵营,指令集也是基于Alpha进行扩展。申威的技术来源是于DEC的Alpha 21164。DEC的技术实力很强,Alpha性能更是惊艳,AMD就曾经购买了Alpha 21264的技术资料,挖走了部分DEC的技术人员后,开发出自己的K7微结构。
DEC是技术实力比人强,但商业模式不如人而失败的典型例子,Alpha也被几经转手,先被康柏收购,后被惠普雪藏。目前Alpha已经被束之高阁,指令集和微结构都已经不再更新,技术专利大多已过期或快过期了。申威是目前Alpha阵营中仅存的硕果,拥有自主扩展指令和发展路线的自主权。
申威和龙芯作为国内硕果仅存的两个走自主可控路线的IC设计单位,和龙芯一样在积极构建自己的软硬件体系以保障从软件和硬件两个方面实现安全可控。申威开发了自己的神威睿智编译器,研发了基于Linux的神威睿思操作系统。加上超算领域不像PC领域那样存在软件生态的掣肘,申威构建自主技术体系的道路可谓一片坦途——于2012年9月投入使用的神威蓝光超算使用了8704片申威1600,搭载神威睿思操作系统,实现了软件和硬件全部国产化。
56所(江南所)以Alpha指令集为基础,扩展出自己的指令集,并在2006年设计出具有自主微结构的申威1,申威1是一款130nm制程工艺的单核心CPU,主频900MHz,集成5700万晶体管。2008年完成的申威2,是一款130nm制程工艺的双核CPU,主频1.4GHz。
如果说申威1和申威2更像是56所磨砺技艺的作品,是对Alpha21164技术的消化吸收,那么2010年研发的申威1600则是56将国外技术融会贯通后,推陈出新的产品。申威1600是一款65nm制程工艺的16核CPU,主频1.1G,双精浮点140G。申威1600被用于神威蓝光超算。
也许是因Alpha当年强悍的性能,本人对源自Alpha的申威抱有很高的期望。但根据国家高性能集成电路设计中心公布的论文显示,申威1600的SPEC2000测试分数只能说是差强人意,唯有性能功耗比和LINPACK测试聊以自慰。平心而论,虽然申威1600处理器的单核性能有限,但16核的可扩展性很好,实现了比较理想的多核性能加速比。
2012年,56所研制出申威1610和申威410,申威1610为40nm制程的16核CPU,集成10亿晶体管,主频1.6G,最大功耗50W,双精浮点运算200G。申威410为40nm制程的4核CPU,集成2.7亿晶体管,主频1.6G。前者用于服务器,后者用于PC,支持中标麒麟操作系统。这两款产品同样遭遇了龙芯在PC市场遇到的软件生态贫乏和产业联盟弱小导致产品缺乏市场竞争力的困境,加上申威410单核性能太弱,搭载申威410的安全可信PC基本不具备在民用PC市场的竞争力。
2014年底,申威5成功流片。根据一篇由坐落于无锡的数字工程与先进技术国家重点实验室和坐落于北京的国家并行计算机工程技术研究中心联合发布的论文,申威5很有可能是一款集成了4个管理核心和256个运算核心的高性能众核CPU,双精浮点运算超过1T,核内 linpack效率93%,并有很高的性能功耗比。
虽然申威和龙芯一样是走独立自主路线,但申威的道路要比龙芯平坦得多:首先,国家对龙芯的投入非常有限,而且龙芯自2010年市场化运营后完全自主经营,自负盈亏。申威是军方项目,不仅不用面对IC设计公司最头痛的技术人才流失问题,还能在人力物力财力可以得到军方充足保障。
其次,申威专注于超算领域,不存在龙芯在PC市场遇到的软件生态贫乏和产业联盟弱小导致产品缺乏市场竞争力的困境。申威有自己的指令集、微结构、CPU、编译器、操作系统就足以在超算领域立足。而龙芯则被软件生态贫乏和产业联盟弱小掣肘。但申威专注于超算领域也带来一个缺憾,就是在和人民群众最息息相关的民用PC市场,我们可能永远看不到申威的产品了。
最后,申威是军方项目,而神威超算更是国家级工程,申威的软件和硬件产品完全可以在体制内完成内部循环。而龙芯的很多产品必须到商业市场上去拼杀。
申威自2003年诞生以来,基于Alpha自主扩展了指令集,共设计了申威1、申威2、申威1600、申威1610、申威5五款芯片,自主研发了神威睿智编译器和神威睿思操作系统,推出了搭载申威芯片的PC、服务器、高性能计算机、超算、防火墙、机架式存储服务器、大规模集群存储系统、瘦客户端、QDR HCA卡、神威云等产品,为国家信息安全和超算建设竭尽所能,圆满完成了国家交付的任务。
节选自 低调的中国自主处理器申威:媲美Intel 作者 赵剑楠
神威·太湖之光
Jump to navigationJump to search
坐标:31°32′55.01″N 120°14′52.94″E
| 啟用時間 | 2015年12月31日 |
|---|---|
| 承建商 | 国家并行计算机工程 技术研究中心 |
| 作業管理者 | 国家超级计算无锡中心 清華大學 |
| 置放地點 | |
| 架構 | 40,960枚申威处理器 SW26010型 260核心CPU |
| 最大消耗功率 | 15,371.00kW |
| 容積、佔地面積 | 605 平方米 |
| 内部存儲器 | 1.31PB |
| 運算速率 | 實際效能:93.0146PFlops 理論效能:125.4359PFlops |
| 造價 | 18億元人民幣 (約合2.73億美元) |
| 排名 | TOP500: #1, 2016年6月 |
| 用途 | 石油勘探,生命科学 天气预报,工业设计 药物研发 |
| 成就 | 戈登貝爾獎獲得平台,打破30年來該獎都由美日獲得的情況 |
| 官方網站 | demo.wxmax.cn |
| 資源 | top500.org |
神威·太湖之光 (英语:Sunway TaihuLight)是由中國国家并行计算机工程技术研究中心研制的超級電腦,2016年6月20日在LINPACK效能測試中以 93 PFLOPS 的測試結果超越同為中國組建的天河二號(LINPACK成績約為34 PFLOPS),成爲世界上最快的超级计算机[1][2][3][4]。「太湖之光」的命名,是來源於無錫旁邊的太湖。目前神威·太湖之光部署在江蘇省無錫市的國家超級計算無錫中心[3][1],由清華大學負責运营[5]。
神威·太湖之光也是中國大陸首度自行設計不使用英特爾等美國公司的核心產品而登上TOP500第一名寶座的超級電腦。[6]该機組也被認為是中國政府面對美國政府限制英特爾、輝達等廠商對華出售運算裝置的正面回應[7],在中國大陸的媒體報導中,也多強調該機組的組件均由中國自主設計並於中國生產。[8]
目录
- 1硬體
- 2軟體
- 3效能
- 4應用
- 5逸聞
- 6参见
- 7参考文献
- 8外部連結
硬體
神威·太湖之光使用国家高性能集成电路(上海)设计中心研发的SW26010。[9]此款處理器,基於DEC Alpha 64微架構、64位元、精簡指令集、亂序執行、支援SIMD的申威-64架構,製程未知。每個處理器晶片中有260個核心,採用大規模多核心並行運算的結構,其中4個為資源管理用途,稱為MPE(Management Processing Element,管理處理元件),採用對稱多處理器的結構;另外256個作通用運算用途,每64個核心組成一個處理器核心陣列,共計4個陣列,合稱為CPE(Computing Processing Element,運算處理元件)。MPE和CPE的連接佈局類似於Cell的協處理器式、非對稱多處理的佈局(PPE+SPE),而CPE的陣列則與Xeon Phi、GPGPU等的流處理器形式相近。CPE核心和MPE核心都是相同的指令集,同樣具備256位元SIMD單元,但不同的是MPE均支援用戶模式和系統模式、32KiB一級指令快取、32KiB一級資料快取、256KiB二級快取,而CPE僅支援用戶模式、16KiB一級指令快取、64KiB本地暫存式記憶體而無資料快取,而且存取系統記憶體需要與MPE溝通。該CPU時脈設定在 1.45GHz。不過,記憶體存取方面的規格相對較為貧弱,使用的是四通道DDR3 SDRAM,而不是最新的DDR4 SDRAM,各通道擁有獨立的、128位元位寬的記憶體控制器,每通道容量 8GiB,一顆CPU可最大支援32GiB的DDR3-2133,儘管如此,每個晶片的記憶體頻寬仍達 136.5GB/s。除此以外,每顆晶片上還內建了片上網路互聯,而非傳統的快取一致性處理。因此,該CPU與Cell寬頻引擎一樣,偏重於浮點數運算。[10][11]
整套系統高達 40,960 個 SW26010處理器,共有 10,649,600 個CPU核心。每個處理器為一個節點單元,一塊主機板上有兩顆處理器,32塊這樣的主機板組成一架主機,每台主機作為一個「超級節點」,一共有256個這樣的超級節點。根據資料圖顯示,這樣的構造使得主機需採用非標準設計,而非標準的刀鋒伺服器機架和機櫃,這樣的一種機櫃可以容納4台主機機架。運算節點單元之間全數採用PCIe匯流排互聯,互聯結構分為三層,頂層網路是「中央切換網路」,中間層是「超級節點網路」,底層是「資源共用網路」。[11]
軟體
神威·太湖之光採用的是基於Linux核心的神威睿思(即RaiseOS 2.0.5),也是分佈式作業系統[11],已有10多年历史,主要面向高性能领域和通用计算领域。中国工程院院士陈左宁表示,在通用计算领域,神威睿思操作系统的主要优势在于自主可控度高和安全性强等方面[12]。
该系统具有其自身的定制化实现的OpenACC2.0以帮助代码并行化[13]。
效能
理論浮點數運算效能為125,435.9 TFlops,而LINPACK測試中的實際效能為93,014.6 TFlops,有74%的效率,相比天河二號(62%)以及排名第三的泰坦(65.8%)都要高。本機組的圖形效能也較為突出,在Graph500排名中位列亞軍。[14]不過遇上記憶體存取較為頻繁的運算處理操作、整數數值較多的運算,記憶體存取的樽頸效應就開始顯現了。[15]
相較天河二號系統功耗達17.8百萬瓦(開啟散熱系統全速運轉時則高達24百萬瓦),神威·太湖之光僅使用15.3百萬瓦,且每瓦效能達到 6 GFLOPS/W,截至2017年11月為止,在Green 500能效比排名中排名第20位。[16][14]
應用
清華大學地球系统科学研究中心與计算机系合作,利用“神威·太湖之光”首次实现了百万核规模、高分辨率的地球系统数值模拟。此前,中國大陸的地球模拟系统模式只能达到200公里网格规模的分辨率,但现在已可开展25公里网格分辨率的地球系统模拟工作,在海洋上可达到10公里分辨率。
目前,三十多家用户单位在天气气候、航空航天、海洋科学、新药创制、先进制造、新材料等领域与国家超算无锡中心开展了合作[5]。2016年神威·太湖之光超級電腦上的「全球大氣非靜力雲分辨模擬」應用軟體得戈登貝爾獎,該獎項是頒發給超級電腦上的應用軟體設計獎,因為硬體性能的有效發揮最終還是取決於軟體設計,此前30年該獎都由美日兩國獲得,首次有第三國打破此規則。[17][18]
逸聞
2017年網路春晚,舉辦了欢唱太湖之光橋段,由羽泉演唱成名曲《奔跑》,與太湖之光20多位科學家連線接龍對唱。[19]
同時網路春晚公開了目前太湖之光計算機的維護與操作小組成員,由清華大學女博士(在讀)丁楠領隊,楊晉喆(倫敦帝國理工學院博士),甘霖(清華大學博士后),劉加賀(清華大學碩士在讀)等20多人組成。[20]
【声明】:禅世界论坛尊重言论自由,任何人可讨论佛法、政经、生活和科技等话题。言论发表前请根据常识和法规自审。论坛管理员和版主有权删除任何不当内容。使用本论坛即表示接受【禅世界论坛规则】。【论坛使用帮助】。 【禅世界免责声明】。
【Chanworld.org】2017.06.06-2021.04.30-2025.04.10-MG-RM
