Page 34 - 實現系統級效能、功耗與面積的3D-IC小晶片設計
P. 34

                                 32
100MB——他們想用推理做的所 有事情都是100MB就夠,比那更 大的任何工作才會需要更多記憶
 體 。 」D i t z e l 補 充 , 客 戶 偏 好 將 大 量 DRAM與處理器放在同一張板卡、 不 是 晶 片 上 ;「 他 們 告 訴 我 們 ,『 只 要一次把所有東西都放到板卡上, 然後利用高速介面;能以比PCIe匯 流排更快的速度存取100GB的記 憶體就搞定了。』
圖6:Cerebras Systems的MemoryX是其CS-2晶圓片尺寸引擎系統的晶片外部記憶體擴展,但展現的 性能號稱就像在晶片上。 (來源:Cerebras Systems)
圖7:Cerebras在AI訓練期間利用流水線(pipelining)消除對延遲敏感的通訊。 (來源:Cerebras Systems)
將Esperanto的方法與其 他資料中心推論加速器進行比 較,Ditzel指出,其他業者專注於 消耗整個功率預算的單一巨型處 理器,但Esperanto這家新創公 司的方法——將多顆低功耗處理 器安裝在雙M.2加速卡上——能更 妥善利用晶片外記憶體。
 他指出,那些單晶片競爭方 案的「接腳數量非常有限,因此 必須利用像HBM之類的產品才 能在少數接腳上實現非常高的頻 寬——但HBM確實很昂貴、很難 取得而且是高功耗。」
負擔1,500位元寬度的記憶體系 統,因為每個資料接腳都得搭配 一些電源和接地接腳,實在太多 接腳了...」
國新創公司Cerebras Systems, 則是設計了一種在晶圓外部的記 憶體瓶頸解決方案;該公司在Hot Chips發表了一款用於其CS-2AI 加速器系統的記憶體擴展系統 MemoryX,鎖定高性能運算和科 學工作負載應用。MemoryX旨在 實現具備上兆或更多參數的巨大 AI模型。
Esperanto的多晶片解決方 案,還可保留更多接腳支援與晶 片外DRAM的通訊。除了6個處理 器晶片,該公司還採用24顆專為手 機設計的廉價、低電壓LPDDR4x DRAM晶片;Ditzel指出:「每位元 功耗與HBM大致相同。」
Ditzel 表示:「之前處理過這 個問題,我們的建議是,『讓我們 把它分開吧!』。」透過822GB/s 的記憶體頻寬存取192GB的總記 憶體容量,所有64位元DRAM晶片 加總可實現1,536位元寬的記憶體 系統,分成96個16位元通道,以更 妥善處理記憶體延遲,而且這一切 都滿足120W的功率預算。
MemoryX是DRAM和快閃記 憶體的組合,展現的性能號稱就 像在晶片上一樣;該架構被宣傳 為極具彈性,被設計為可容納4TB 到2.4PB (2,000億到120兆個參 數)——該容量足以支援世界上最 大的AI模型。
「因為LPDDR4x的頻寬比 HBM低,我們可以透過更寬尺寸 取得更多頻寬;」他補充:「我們 在加速卡的記憶體系統採用1,500 位元寬度,而單晶片競爭對手無法
流水線權重
www.eettaiwan.com | 2022年4月 
開發晶圓片大小AI加速器的美
INNOVATIONS


















































































   32   33   34   35   36