人人狠狠综合久久亚洲-脱岳裙子从后面挺进去在线观看-午夜无码片在线观看影院-波多野结衣在线播放

INTEL英特爾發(fā)布第六代至強SP處理器:將小芯片設計進行到底英特爾發(fā)布第六代至強SP處理器:將小芯片設計進行到底

來源:INTEL英特爾| 發(fā)布日期:2023-09-26 14:21

從過去幾周英特爾在各類活動中的表述來看,特別是參考Hot Chips 2023和英特爾Innovation 2023大會上發(fā)布的消息,芯片巨頭的制程工藝路線圖及其服務器處理器設計思路將保持統(tǒng)一,共同為明年發(fā)布的至強SP系列CPU提供競爭力支撐。

當然,英特爾與AMD Epyc芯片、Ampere Computing旗下各Arm產(chǎn)品,包括其他超大運作模式基礎設施運營商和云服務商的原研Arm服務器CPU之間仍有一定差距。但憑借著雄厚的渠道資源支持,英特爾仍有望以無所不達的銷售網(wǎng)絡和對舊有制程工藝的極限壓榨取得商業(yè)上的成功。至少在特定應用負載之上,英特爾家的CPU仍保持著技術(shù)與經(jīng)濟的雙重優(yōu)勢。

但如今英特爾的地位已然動搖,所以必須設計好多戰(zhàn)線的競爭格局,憑借明年發(fā)布的高性能P核和高能效E核設計帶來更令人眼前一亮的成果。

當然,這已經(jīng)不是英特爾第一次在服務器市場上參與多線作戰(zhàn)了,甚至AMD也不是。英特爾和AMD在之前的架構(gòu)中都曾經(jīng)歷過性能核與能效核并存的階段,只是這次情況更加特殊。英特爾當初面向客戶端設備的凌動系列芯片擁有出色的512位AVX矢量引擎、ECC內(nèi)存清理機制、服務器級虛擬化等功能,并成為2015年針對高性能計算工作負載的“Knights”多核處理器產(chǎn)品線的基礎。而在AMD這邊,2016年1月推出的“Seattle”O(jiān)pteron A1100處理器希望挽回Opteron家族的頹勢,其上搭載的正是低功耗Arm Cortex-A57核心。此舉希望能將Opteron品牌打造成更強大、更高端的Arm服務器CPU產(chǎn)品線,甚至在設計上支持用EDA全局替換將Arm轉(zhuǎn)為X86核心。(雖然最終沒能用上。)

對于英特爾和AMD來說,這次的情況明顯有所不同。因為大型服務器買家(即超大規(guī)?;A設施運營商和云服務商)及原始設備制造商(戴爾、HPE、聯(lián)想、浪潮、華為及思科等)都已向雙方提出明確要求:請在單一服務器平臺內(nèi)創(chuàng)新,不要搞跨服務器平臺創(chuàng)新??蛻魝兊男枨蠛芎唵危宀壑畠?nèi)任你怎么折騰,但千萬別跨架構(gòu)。

正因如此,AMD才決定在今年推出第四代Epyc處理器。正常來講其代號應該為“Genoa”,但此次卻多出了“Bergamo”和“Siena”等子代號,分別配備Zen 4性能核和Zen 4c能效核(二者最大的區(qū)別是核心的L3緩存容量)。英特爾這邊則計劃推出第五代至強SP,各版本同時支持能效E核和性能P核,且無需對插槽或平臺做任何調(diào)整。英特爾的策略就是維持兩種不同取向的核心,之后在構(gòu)建SKU棧時靈活組合以覆蓋更多負載需求。AMD和英特爾似乎都不想在單一插槽之內(nèi)混合搭配不同核心,這也可以理解。畢竟至少對現(xiàn)代數(shù)據(jù)中心的運行需求來說,在機架層級做性能/能效混合已經(jīng)足夠,進一步細分純屬勞民傷財。

在Hot Chips大會上,英特爾服務器芯片架構(gòu)師Chris Gianos(之前曾參與過安騰芯片和Digital Equipment公司多代處理器產(chǎn)品的研發(fā))談到了下一代至強SP的整體架構(gòu),并介紹了“Granite Rapids”性能核至強SP的某些功能特性。曾在惠普研發(fā)HP 9000和安騰處理器的現(xiàn)任英特爾芯片設計師Don Soltis則介紹了搭載能效E核的“Sierra Forest”至強SP處理器。

Gianos表示,這些設計中去掉了用于南橋I/O的外部獨立PCH芯片組。但我們也可以合理推測,PCH功能實際上是被加上PCI-Express、以太網(wǎng)和UltraPath互連(UPI),再配合各種控制器和加速器共同塞進了兩個小芯片當中。值得注意的是,英特爾第六代至強SP架構(gòu)的內(nèi)存控制器并非位于I/O芯片之上,而是位于核心加緩存復合體之上。

Gianos解釋道,“我們認為把這些要素結(jié)合起來非常重要,因為這是個理想的優(yōu)化方向,在性能和計算密度方面都有積極意義?!?/p>

很明顯,為了進一步充實第六代至強SP的SKU棧,英特爾可以向其中添加不同數(shù)量的I/O芯片和計算芯片,并根據(jù)相應的價格設定和功率水平分別激活對應配置。而且本周Innovation 2023大會也傳出消息,隨著288核Sierra Forest能效核版本的發(fā)布,英特爾能夠進一步提升第六代至強SP的規(guī)格,將其“Advanced Platform”(AP版)產(chǎn)品的核心數(shù)量再增加一倍。整個思路跟2019年4月發(fā)布的“Cascade Lake”Advanced Platform至強處理器完全相同,當時這款產(chǎn)品就是為了縮小與AMD在每插槽核心數(shù)量上的差距。目前我們還沒有看到Granite Rapids性能核版本的Advanced Platform雙倍核心版本,但只要英特爾愿意,相信完全可以做到。

Gianos還特意強調(diào),英特爾打造的是一套模塊化服務器芯片架構(gòu),能夠在插槽內(nèi)靈活調(diào)整不同要素的比例,借此滿足更廣泛的用例和客戶場景。

英特爾正使用其2.5D嵌入式多芯片互連橋(EMIB)這項多芯片封裝技術(shù)將小芯片粘合起來。EMIB是英特爾針對臺積電晶圓基板上芯片(CoWoS)2.5D封裝技術(shù)的回應之舉,后者已經(jīng)被廣泛應用于GPU及各類加速器芯片。展望未來,英特爾可以使用其Foveros 3D芯片封裝為至強SP設計添加垂直L3緩存擴展,思路與AMD在其Milan-X和Genoa-X處理器上使用的3D-Vache非常相似。

上圖所示,為英特爾在第六代至強SP芯片中可能提供的不同選項,但我們猜測Granite Rapids和Sierra Forest各自只能使用其中部分選項,因為其SKU棧也是分別針對不同產(chǎn)品線設計而成。Gianos表示,總體來講,英特爾可以使用最右下設計提供低至個位數(shù)核心加極高I/O容量的至強SP芯片,也可以根據(jù)客戶需求在居左的小芯片設計中將核心數(shù)量增加至三位數(shù)。

能效核系統(tǒng)將支持單/雙插槽,就是說I/O芯片中的某些UPI鏈路將被禁用;而性能核系統(tǒng)將提供單、雙、四、八插槽,且激活的UPI鏈路數(shù)量也相應增加。每個核心小芯片將擁有4個內(nèi)存控制器,可支持DDR 5或MCR內(nèi)存(后文將詳細介紹),因此最高規(guī)格的第六代至強SP將擁有12個內(nèi)存控制器為芯片提供服務,每通道可對應單/雙DIMM,具體取決于客戶對容量和帶寬的需求。這兩個I/O芯片可提供144條UPI互連通道(共6個端口,即每I/O芯片3個端口)和136條PCI-Express 5.0互連通道(即每I/O芯片68條通道)。我們推測,這些PCI-Express通道中將有半數(shù)能夠支持CXL 2.0內(nèi)存協(xié)議。但英特爾最終也有可能選擇全部兼容CXL 2.0,這就屬于意外驚喜了。

根據(jù)Gianos的解釋,英特爾還打算在第六代至強SP上打造所謂“虛擬單體芯片”,將至強E5/E7和至強SP處理器已經(jīng)使用十余年的片上網(wǎng)格互連擴展至可跨EMIB互連。Gianos表示,任意小芯片中的任意元件都可以與該擴展網(wǎng)格上的任意其他元件進行通信,類似于經(jīng)典單體芯片設計。此外,連接芯片組的EMIB邊界將提供超1 TB/秒帶寬,以確保整個網(wǎng)格體系能夠快速、順暢互連互通。

Gianos補充稱,在Granite Rapids設計中,高端SKU將有“超0.5 GB”的末極緩存。英特爾也證實,他們會在小芯片級別上建立sub-NUMA集群,通過這一默認模式跨小芯片分配工作負載并提供內(nèi)存/計算局部性。

下圖所示,為第六代至強SP的計算芯片架構(gòu),這里以Granite Rapids性能核版本為例:

我們知道,采用三顆小芯片的全尺寸能效核Sierra Forest在單一封裝中最多可提供144個核心。每個核心塊配備3 MB的LLC緩存。根據(jù)Soltis的介紹,每個核心塊中容納4個能效核,相當于每個小芯片對應48個核心、折合12個核心塊。此外,每個小芯片擁有36 MB共享L3緩存,因此144核三芯片網(wǎng)格共有108 MB共享L3緩存。包含4個能效核的單一核心塊擁有4 MB L2緩存,每個小芯片都有12個核心塊,因此每個小芯片擁有48 MB L2緩存,每個Sierra Forest整體封裝擁有144 MB L2緩存(不到AP版的2倍)。但從速度測試來看達不到這個水平,所以此處推測可能有誤。

在性能核這邊,計算方式則略有不同。每個核心擁有4 MB L3緩存和專用的2 MB L2緩存。所以Granite Rapids的實質(zhì),就相當于把Sierra Forest中的4顆能效核及其緩存取出,再換上相應的性能核及其緩存。憑借超過512 MB的L3緩存,理論上Granite Rapids的非AP版本在每個插槽上可提供超128個核心。性能核的2個線程都支持HyperThreading超線程功能、擁有1個AVX-512矢量單元和1個AMX矩陣單元。從配置上來看,Granite Rapids版的發(fā)熱量無疑會高于Sierra Forest。

順帶一提,128核這個數(shù)字跟Soltis在演講中的表述有所出入:“從概念上講,我們就是直接把性能核替換成了能效核。除此之外,其他所有設計都是完全相同的,后續(xù)我們還會推出其他基本相同設計的芯片?!?/p>

如果真是如此,那么Granite Rapids最多也只能容納36個核心,這個數(shù)量肯定不夠用。所以推測Granite Rapids的最高配能容納3個核心塊,而Sierra Forest最多只能容納2個核心塊。

如果以上判斷正確,那么每個能效核小芯片可能承載80個核心——也許是在4個核心上采用10 x 2的網(wǎng)格設計。但考慮到該芯片的實際利用率只有90%,那么活動核心就是72個,對應的是18個活動能效核心塊、54 MB共享L3緩存和72 MB L2緩存。這樣2個小芯片就能容納36個能效核心塊,對應144個核心、108 MB共享L3緩存和144 MB L2緩存。

現(xiàn)在我們?nèi)?個這種小芯片,把能效核換成搭載4 MB共享L3緩存和2 MB L2緩存的性能核。這樣考慮單一核心塊上完整搭載20個核心的情況,也就是60個核心。我們假設英特爾用盡了所有針腳、打造出一款全部核心都能正常工作的版本,那其核心數(shù)量也仍然有限。除非英特爾能想辦法把這個數(shù)字再翻倍至120核,否則我們實在想象不出來哪里還有設計AP版的空間。

憑著直覺,我們認為普版Granite Rapids對應的可能是72核心加288 MB L3緩存,就是說Granite Rapids的AP版將倍增至144核心加576 MB L3緩存——而且這一切只能分布在3個小芯片上。這倒是符合Gianos在演講中提到的“超過512 GB的LLC”。按這個結(jié)果來倒推,就是說英特爾會設計一款能效核小芯片,它的網(wǎng)格中可能容納84個核心;再結(jié)合英特爾關(guān)于Sierra Forest的介紹,在85%的良品率下,其實際可用核心為72個。如果說Sierra Forest確實只能容納2個計算小芯片,那……

不說了,這里有太多的假設和猜測,咱們至此為止。

Soltis提到,Sierra Forest也將提供多種變體,比如只激活一半的核心。所以有些版本雖然出廠時有72個核心,但卻只能提供72個線程,不過也許其時鐘速率會更高一點、高每個線程都稍強勁些。

在被問及性能核跟能效核該如何比較時,GIanos表示其實二者之間的差異并沒有固定的比例。但基本可以確定,能效核心的時鐘速率應該更低,而且性能核的單線程性能應該在能效核的2倍以上。但具體再高出多少就很難說,估計可能在20%到25%的水平;再考慮到性能核上搭載的AVX-512和AMX單元,其發(fā)熱量應該也相應高出20%到25%。但據(jù)我們所知,通過剝離掉這些額外單元、并在能效核中使用兩個更小的128位AVX矢量單元,英特爾沒準可以在相同的發(fā)熱量之下讓能效核獲得高于性能核的時鐘速率。

但實際情況究竟如何,恐怕只有時間能給出答案。

下面來看性能P核的介紹圖表:

再看能效E核的介紹圖表:

Sierra Forest和Granite Rapids都將采用Intel 3制程工藝,有人說其基本對應臺積電的5納米工藝,也有人認為其已經(jīng)更接近3納米工藝。但最重要的是,Intel 3肯定不是7納米或者10納米工藝,其制程精度已經(jīng)相當領(lǐng)先,足夠讓英特爾的架構(gòu)優(yōu)勢發(fā)揮出實際效果。

性能核和能效核都采用64 KB L1指令緩存,這對保持核心的高負荷運轉(zhuǎn)非常重要。我們認為L1指令緩存越大,就能更好地掩蓋其小芯片、而非單體芯片設計所帶來的延遲。緩存為王,此言非虛……

Soltis還深入介紹了能效核架構(gòu)。這是一種不同的架構(gòu),在英特爾內(nèi)部的代號為“Sierra Glen”。(這一代性能核的代號為「Redwood Cove」,是對已經(jīng)上市的第四代「Sapphire Rapids」至強SP處理器中使用的「Golden Cove」性能核的升級產(chǎn)物。)其正面布局如下所示:

再來看指令引擎單元的構(gòu)成:

執(zhí)行單元如下所示:

整數(shù)和矢量性能間也有合理的平衡點,Soltis表示能效核中的AVX單元(并非AVX-512或者AVX-10)將支持INT8、BF16和FP16格式,但沒有提及是否支持FP32和FP64。

再來看能效核的背面布局,包括32 KB L1數(shù)據(jù)緩存和4 MB L2緩存,后者由同一核心塊內(nèi)的雙/四能效核心共享:

Granite Rapids和Sierra Forest的I/O芯片完全相同,因此二者才能共享同樣的設計平臺。

英特爾在第六代至強SP上使用的UPI鏈接速度稍慢,但帶寬也略微增大,這明顯比之前的至強SP有了更好的NUMA性能平衡。片上加速器的接口帶寬也迎來倍增,可借此提高運行效率。