Page 39 - Demo
P. 39
www.eettaiwan.com | 2025年1-2月36 INDUSTRY TRENDS開放標準突破AI加速器互連瓶頸Gary Hilson,EE Times特約記者他補充說,UALink 1.0將支援兩種介面類型:基於IEEE8 02.3dj實體層(PHY)每通道高達200Gbps的擴展連接,最多可連接1,024個AI加速器;以及基於PCIe Gen7實體層的每通道128Gbps擴展連接。Bowman表示,UALink創造了一個開放的生態系,可將加速器連接至交換機——交換機的數量取決於所需的加速器數量。「這樣的架構讓我們能夠有效地擴展規模。」他說,當每個加速器連接時,它們會組成一個看似單一的大型加速器叢集,而連接在該加速器上的記憶體可供應用程式使用。AI對於記憶體的需求造成越來越大的壓力,因為多個加速器之間需要共用記憶體,單一加速器的記憶體已無法容納整個模型。雖然NVMe通訊協議已針對儲存處理進行微調,CXL也迅速崛起,以便能更好地最佳化記憶體資源,但目前加速器之間的連接仍依賴於專用技術,例如Nvidia的NVLink。近期發佈的Ultra Accelerator Link (UALink)是一種開放解決方案,由多 家 交 換 機 與 加 速 器 供 應商共同開發。UALink聯盟(UALink Consortium)主席Kurtis Bowman在接受《EE Times》採訪時表示:「有了開放標準,企業就可以採購一套交換機,並真正能夠用於多種類型的加速器中。」Bowman表示,雲端運算公司對於開放標準的需求非常迫切,因為在資料中心為市場上的每一款加速器配置專屬的互連架構並不符合經濟效益。「我們也知道,那些大型推論模型需要數十甚至數百個加速器組成的叢集,而訓練模型的需求將會更加龐大」。隨著人工智慧(AI)模型規模越來越大,訓練模型所需的硬體也必須同步升級。然而,目前缺乏一種開放的互連標準,用於支援AI加速器之間的通訊。業界趨勢雖然UALink擬成為開放標準,但 B o w m a n 表 示,它 利 用 的是AMD的Infinity Fabric協議,該協議已在資料中心使用超過十年了。Bowman說:「我們使 用的這是一個經過充份驗證的介面,它有助於讓人們能夠輕易上手,並確保其可用性。」Bowman表示,Infinity Fabric包含硬體一致性,這對於連接數百個GPU的資料中心環境至關重要。但如果將這些功能整合至互連介面中,將會導致效能下降,因此軟體一致性能更高效地處理這些需求。「UALink使用軟體一致性來維持小規模的一致性,並避免因硬體一致性造成的所有擁塞情況」。UALink Consortium於今年10月正式成立,目前已有超過50家成員,包括英特爾(Intel)等半導體公司,以及亞馬遜(Amazon)、Google和微軟UALink為許多AI加速器的擴充連接創造了一個開放生態系。 (來源:UALink Consortium)