INTEL英特爾發(fā)布第六代至強SP處理器：將小芯片設計進行到底英特爾發(fā)布第六代至強SP處理器：將小芯片設計進行到底

來源：INTEL英特爾| 發(fā)布日期：2023-09-26 14:21

從過去幾周英特爾在各類活動中的表述來看，特別是參考Hot Chips 2023和英特爾Innovation 2023大會上發(fā)布的消息，芯片巨頭的制程工藝路線圖及其服務器處理器設計思路將保持統(tǒng)一，共同為明年發(fā)布的至強SP系列CPU提供競爭力支撐。

當然，英特爾與AMD Epyc芯片、Ampere Computing旗下各Arm產(chǎn)品，包括其他超大運作模式基礎設施運營商和云服務商的原研Arm服務器CPU之間仍有一定差距。但憑借著雄厚的渠道資源支持，英特爾仍有望以無所不達的銷售網(wǎng)絡和對舊有制程工藝的極限壓榨取得商業(yè)上的成功。至少在特定應用負載之上，英特爾家的CPU仍保持著技術(shù)與經(jīng)濟的雙重優(yōu)勢。

但如今英特爾的地位已然動搖，所以必須設計好多戰(zhàn)線的競爭格局，憑借明年發(fā)布的高性能P核和高能效E核設計帶來更令人眼前一亮的成果。

當然，這已經(jīng)不是英特爾第一次在服務器市場上參與多線作戰(zhàn)了，甚至AMD也不是。英特爾和AMD在之前的架構(gòu)中都曾經(jīng)歷過性能核與能效核并存的階段，只是這次情況更加特殊。英特爾當初面向客戶端設備的凌動系列芯片擁有出色的512位AVX矢量引擎、ECC內(nèi)存清理機制、服務器級虛擬化等功能，并成為2015年針對高性能計算工作負載的“Knights”多核處理器產(chǎn)品線的基礎。而在AMD這邊，2016年1月推出的“Seattle”O(jiān)pteron A1100處理器希望挽回Opteron家族的頹勢，其上搭載的正是低功耗Arm Cortex-A57核心。此舉希望能將Opteron品牌打造成更強大、更高端的Arm服務器CPU產(chǎn)品線，甚至在設計上支持用EDA全局替換將Arm轉(zhuǎn)為X86核心。（雖然最終沒能用上。）

對于英特爾和AMD來說，這次的情況明顯有所不同。因為大型服務器買家（即超大規(guī)?；A設施運營商和云服務商）及原始設備制造商（戴爾、HPE、聯(lián)想、浪潮、華為及思科等）都已向雙方提出明確要求：請在單一服務器平臺內(nèi)創(chuàng)新，不要搞跨服務器平臺創(chuàng)新?？蛻魝兊男枨蠛芎唵危宀壑畠?nèi)任你怎么折騰，但千萬別跨架構(gòu)。

正因如此，AMD才決定在今年推出第四代Epyc處理器。正常來講其代號應該為“Genoa”，但此次卻多出了“Bergamo”和“Siena”等子代號，分別配備Zen 4性能核和Zen 4c能效核（二者最大的區(qū)別是核心的L3緩存容量）。英特爾這邊則計劃推出第五代至強SP，各版本同時支持能效E核和性能P核，且無需對插槽或平臺做任何調(diào)整。英特爾的策略就是維持兩種不同取向的核心，之后在構(gòu)建SKU棧時靈活組合以覆蓋更多負載需求。AMD和英特爾似乎都不想在單一插槽之內(nèi)混合搭配不同核心，這也可以理解。畢竟至少對現(xiàn)代數(shù)據(jù)中心的運行需求來說，在機架層級做性能/能效混合已經(jīng)足夠，進一步細分純屬勞民傷財。

在Hot Chips大會上，英特爾服務器芯片架構(gòu)師Chris Gianos（之前曾參與過安騰芯片和Digital Equipment公司多代處理器產(chǎn)品的研發(fā)）談到了下一代至強SP的整體架構(gòu)，并介紹了“Granite Rapids”性能核至強SP的某些功能特性。曾在惠普研發(fā)HP 9000和安騰處理器的現(xiàn)任英特爾芯片設計師Don Soltis則介紹了搭載能效E核的“Sierra Forest”至強SP處理器。

Gianos表示，這些設計中去掉了用于南橋I/O的外部獨立PCH芯片組。但我們也可以合理推測，PCH功能實際上是被加上PCI-Express、以太網(wǎng)和UltraPath互連（UPI），再配合各種控制器和加速器共同塞進了兩個小芯片當中。值得注意的是，英特爾第六代至強SP架構(gòu)的內(nèi)存控制器并非位于I/O芯片之上，而是位于核心加緩存復合體之上。

Gianos解釋道，“我們認為把這些要素結(jié)合起來非常重要，因為這是個理想的優(yōu)化方向，在性能和計算密度方面都有積極意義?！?/p>

很明顯，為了進一步充實第六代至強SP的SKU棧，英特爾可以向其中添加不同數(shù)量的I/O芯片和計算芯片，并根據(jù)相應的價格設定和功率水平分別激活對應配置。而且本周Innovation 2023大會也傳出消息，隨著288核Sierra Forest能效核版本的發(fā)布，英特爾能夠進一步提升第六代至強SP的規(guī)格，將其“Advanced Platform”（AP版）產(chǎn)品的核心數(shù)量再增加一倍。整個思路跟2019年4月發(fā)布的“Cascade Lake”Advanced Platform至強處理器完全相同，當時這款產(chǎn)品就是為了縮小與AMD在每插槽核心數(shù)量上的差距。目前我們還沒有看到Granite Rapids性能核版本的Advanced Platform雙倍核心版本，但只要英特爾愿意，相信完全可以做到。

Gianos還特意強調(diào)，英特爾打造的是一套模塊化服務器芯片架構(gòu)，能夠在插槽內(nèi)靈活調(diào)整不同要素的比例，借此滿足更廣泛的用例和客戶場景。

英特爾正使用其2.5D嵌入式多芯片互連橋（EMIB）這項多芯片封裝技術(shù)將小芯片粘合起來。EMIB是英特爾針對臺積電晶圓基板上芯片（CoWoS）2.5D封裝技術(shù)的回應之舉，后者已經(jīng)被廣泛應用于GPU及各類加速器芯片。展望未來，英特爾可以使用其Foveros 3D芯片封裝為至強SP設計添加垂直L3緩存擴展，思路與AMD在其Milan-X和Genoa-X處理器上使用的3D-Vache非常相似。

上圖所示，為英特爾在第六代至強SP芯片中可能提供的不同選項，但我們猜測Granite Rapids和Sierra Forest各自只能使用其中部分選項，因為其SKU棧也是分別針對不同產(chǎn)品線設計而成。Gianos表示，總體來講，英特爾可以使用最右下設計提供低至個位數(shù)核心加極高I/O容量的至強SP芯片，也可以根據(jù)客戶需求在居左的小芯片設計中將核心數(shù)量增加至三位數(shù)。

能效核系統(tǒng)將支持單/雙插槽，就是說I/O芯片中的某些UPI鏈路將被禁用；而性能核系統(tǒng)將提供單、雙、四、八插槽，且激活的UPI鏈路數(shù)量也相應增加。每個核心小芯片將擁有4個內(nèi)存控制器，可支持DDR 5或MCR內(nèi)存（后文將詳細介紹），因此最高規(guī)格的第六代至強SP將擁有12個內(nèi)存控制器為芯片提供服務，每通道可對應單/雙DIMM，具體取決于客戶對容量和帶寬的需求。這兩個I/O芯片可提供144條UPI互連通道（共6個端口，即每I/O芯片3個端口）和136條PCI-Express 5.0互連通道（即每I/O芯片68條通道）。我們推測，這些PCI-Express通道中將有半數(shù)能夠支持CXL 2.0內(nèi)存協(xié)議。但英特爾最終也有可能選擇全部兼容CXL 2.0，這就屬于意外驚喜了。

根據(jù)Gianos的解釋，英特爾還打算在第六代至強SP上打造所謂“虛擬單體芯片”，將至強E5/E7和至強SP處理器已經(jīng)使用十余年的片上網(wǎng)格互連擴展至可跨EMIB互連。Gianos表示，任意小芯片中的任意元件都可以與該擴展網(wǎng)格上的任意其他元件進行通信，類似于經(jīng)典單體芯片設計。此外，連接芯片組的EMIB邊界將提供超1 TB/秒帶寬，以確保整個網(wǎng)格體系能夠快速、順暢互連互通。

Gianos補充稱，在Granite Rapids設計中，高端SKU將有“超0.5 GB”的末極緩存。英特爾也證實，他們會在小芯片級別上建立sub-NUMA集群，通過這一默認模式跨小芯片分配工作負載并提供內(nèi)存/計算局部性。

下圖所示，為第六代至強SP的計算芯片架構(gòu)，這里以Granite Rapids性能核版本為例：

我們知道，采用三顆小芯片的全尺寸能效核Sierra Forest在單一封裝中最多可提供144個核心。每個核心塊配備3 MB的LLC緩存。根據(jù)Soltis的介紹，每個核心塊中容納4個能效核，相當于每個小芯片對應48個核心、折合12個核心塊。此外，每個小芯片擁有36 MB共享L3緩存，因此144核三芯片網(wǎng)格共有108 MB共享L3緩存。包含4個能效核的單一核心塊擁有4 MB L2緩存，每個小芯片都有12個核心塊，因此每個小芯片擁有48 MB L2緩存，每個Sierra Forest整體封裝擁有144 MB L2緩存（不到AP版的2倍）。但從速度測試來看達不到這個水平，所以此處推測可能有誤。

在性能核這邊，計算方式則略有不同。每個核心擁有4 MB L3緩存和專用的2 MB L2緩存。所以Granite Rapids的實質(zhì)，就相當于把Sierra Forest中的4顆能效核及其緩存取出，再換上相應的性能核及其緩存。憑借超過512 MB的L3緩存，理論上Granite Rapids的非AP版本在每個插槽上可提供超128個核心。性能核的2個線程都支持HyperThreading超線程功能、擁有1個AVX-512矢量單元和1個AMX矩陣單元。從配置上來看，Granite Rapids版的發(fā)熱量無疑會高于Sierra Forest。

順帶一提，128核這個數(shù)字跟Soltis在演講中的表述有所出入：“從概念上講，我們就是直接把性能核替換成了能效核。除此之外，其他所有設計都是完全相同的，后續(xù)我們還會推出其他基本相同設計的芯片?！?/p>

如果真是如此，那么Granite Rapids最多也只能容納36個核心，這個數(shù)量肯定不夠用。所以推測Granite Rapids的最高配能容納3個核心塊，而Sierra Forest最多只能容納2個核心塊。

如果以上判斷正確，那么每個能效核小芯片可能承載80個核心——也許是在4個核心上采用10 x 2的網(wǎng)格設計。但考慮到該芯片的實際利用率只有90%，那么活動核心就是72個，對應的是18個活動能效核心塊、54 MB共享L3緩存和72 MB L2緩存。這樣2個小芯片就能容納36個能效核心塊，對應144個核心、108 MB共享L3緩存和144 MB L2緩存。

現(xiàn)在我們?nèi)?個這種小芯片，把能效核換成搭載4 MB共享L3緩存和2 MB L2緩存的性能核。這樣考慮單一核心塊上完整搭載20個核心的情況，也就是60個核心。我們假設英特爾用盡了所有針腳、打造出一款全部核心都能正常工作的版本，那其核心數(shù)量也仍然有限。除非英特爾能想辦法把這個數(shù)字再翻倍至120核，否則我們實在想象不出來哪里還有設計AP版的空間。

憑著直覺，我們認為普版Granite Rapids對應的可能是72核心加288 MB L3緩存，就是說Granite Rapids的AP版將倍增至144核心加576 MB L3緩存——而且這一切只能分布在3個小芯片上。這倒是符合Gianos在演講中提到的“超過512 GB的LLC”。按這個結(jié)果來倒推，就是說英特爾會設計一款能效核小芯片，它的網(wǎng)格中可能容納84個核心；再結(jié)合英特爾關(guān)于Sierra Forest的介紹，在85%的良品率下，其實際可用核心為72個。如果說Sierra Forest確實只能容納2個計算小芯片，那……

不說了，這里有太多的假設和猜測，咱們至此為止。

Soltis提到，Sierra Forest也將提供多種變體，比如只激活一半的核心。所以有些版本雖然出廠時有72個核心，但卻只能提供72個線程，不過也許其時鐘速率會更高一點、高每個線程都稍強勁些。

在被問及性能核跟能效核該如何比較時，GIanos表示其實二者之間的差異并沒有固定的比例。但基本可以確定，能效核心的時鐘速率應該更低，而且性能核的單線程性能應該在能效核的2倍以上。但具體再高出多少就很難說，估計可能在20%到25%的水平；再考慮到性能核上搭載的AVX-512和AMX單元，其發(fā)熱量應該也相應高出20%到25%。但據(jù)我們所知，通過剝離掉這些額外單元、并在能效核中使用兩個更小的128位AVX矢量單元，英特爾沒準可以在相同的發(fā)熱量之下讓能效核獲得高于性能核的時鐘速率。

但實際情況究竟如何，恐怕只有時間能給出答案。

下面來看性能P核的介紹圖表：

再看能效E核的介紹圖表：

Sierra Forest和Granite Rapids都將采用Intel 3制程工藝，有人說其基本對應臺積電的5納米工藝，也有人認為其已經(jīng)更接近3納米工藝。但最重要的是，Intel 3肯定不是7納米或者10納米工藝，其制程精度已經(jīng)相當領(lǐng)先，足夠讓英特爾的架構(gòu)優(yōu)勢發(fā)揮出實際效果。

性能核和能效核都采用64 KB L1指令緩存，這對保持核心的高負荷運轉(zhuǎn)非常重要。我們認為L1指令緩存越大，就能更好地掩蓋其小芯片、而非單體芯片設計所帶來的延遲。緩存為王，此言非虛……

Soltis還深入介紹了能效核架構(gòu)。這是一種不同的架構(gòu)，在英特爾內(nèi)部的代號為“Sierra Glen”。（這一代性能核的代號為「Redwood Cove」，是對已經(jīng)上市的第四代「Sapphire Rapids」至強SP處理器中使用的「Golden Cove」性能核的升級產(chǎn)物。）其正面布局如下所示：