Page 30 - 實現系統級效能、功耗與面積的3D-IC小晶片設計
P. 30

                                 28
創新天地
 突破AI應用記憶體瓶頸 老將新秀各出奇招
Sally Ward-Foxton,EE Times歐洲特派記者
人工智慧(AI)懷疑論者對當 前技術中存在的記憶體瓶 頸多有批判,認為這將使得 處理器和記憶體之間的資 料傳輸無法加速,從而阻礙 現實世界的應用。
在資料中心運用於訓練AI模 型的AI加速器需要最高的可用記憶 體頻寬,雖然將整個模型儲存在處 理器中可免除晶片外接記憶體,但 並非可行解決方案,因為最大的模 型需要量測的參數可達到數十億 甚至數兆個。過去的系統受到記憶 體限制,如今的資料中心架構則利 用各種技巧來克服記憶體瓶頸。
最流行的解決方案之一是利用 高頻寬記憶體(HBM),包括將4、8 或12顆DRAM裸晶的3D堆疊透過 矽中介層連接至處理器。這種方法 的最新版本HBM2E具有比其前一代 技術更快的每接腳訊號傳輸速率, 達到3.6Gb/s,因而可提高頻寬。
www.eettaiwan.com | 2022年4月 
圖1:Nvidia的A100資料中心GPU具有6個HBM2E記憶體堆疊(出於良率原因,僅使用其中5個)。
(來源:Nvidia)
  高頻寬記憶體
Nvidia最新旗艦級資料中心 繪圖處理器(GPU) A100可提供 80GB的HBM2E性能,以及2TB/s 的記憶體頻寬;該款GPU包含5個 16GB DRAM堆疊,搭配利用HBM2 的40GB版本DRAM,總頻寬可達 1.6TB/s,可用於極度消耗記憶體 的深度學習推薦AI模型訓練,將速 度提高三倍。
「在一般情況下,CPU會根據 容量進行最佳化,加速器和GPU 則是根據頻寬最佳化;」Intel資 深首席工程師Arijit Biswas在最 近一次的Hot Chips大會演說中 表示:「然而隨著模型大小呈現指 數級成長,我們看到對容量和頻 寬的需求也持續成長;Sapphire Rapids能透過對兩者的原生支援 來因應需求。」
韓國記憶體大廠三星 (Samsung)與海力士(SK Hynix)都 有提供8裸晶HBM2E堆疊,總容量
在此同時,資料中心處理器 (CPU)也在利用HBM頻寬優勢, 如英特爾(Intel)透過新一代資料 中心處理器Sapphire Rapids將
這種方法亦透過記憶體分層 (tiering)得到強化;Biswas補充, 「其中包括對軟體可見(software-
16GB,頻寬高達460GB/s (根據SK Hynix表示,相較之下DDR5頻寬為 2.4GB/s,GDDR6為64GB/s)。而 再下一代版本HBM3可望進一步提 高速度和容量。
HBM導入Xeon系列產品,這會是 該公司首款採用新AMX指令集擴 充的資料中心CPU,專為AI等矩陣 乘法工作負載設計,還可利用晶片 外DDR5 DRAM或DRAM加HBM。
INNOVATIONS
















































































   28   29   30   31   32