Page 34 - 5G SA開台多重無線技術測試再添挑戰
P. 34

 32
  Boqueria的記憶體庫特寫,可看到SRAM陣列與處理元件(PE)混合排列; Untether AI在SpeedAI晶片添加了LPDDR5介面、PCIe介面以及I/O晶片
其中有具備多執行續能力的RISC-V核心以及新的行控制器。 上網路(NOC)。
(來源:Untether AI)
指令;而在新的Boqueria架構中 則是以逐行為基礎進行控制,因 此64個處理元件中的每8行可以獨 立運作。這種粒度的降低提升了效 率,因為不同的指令能在同樣的記 憶體庫中被處理。
浮點支援與可擴展功能
外部記憶體;這可實現單晶片系 統內的係數與層置換(coefficient and layer swapping),其中進行運 算的網路大於晶片可容納的程度。 此外還有3個PCIe 5晶片對晶片互 連介面,支援主處理器到加速器以 及加速器與加速器之間的通訊。
處理元件保留了零檢測(zero- detect)電路,能在稀疏網路中 節省電力;此外也有對2:1結構化 稀疏的硬體支援。記憶體庫內的 SRAM是標準的6電晶體單元,而且 因為由台積電(TSMC)的16奈米製 程升級為7奈米,資料路徑的電壓 能降低到0.4V,節省了能源。
根據Untether AI的說法, 這種FP8的實施代表了一個「甜 蜜點」──相較於BF16,其精確 度損失不到0.1%,但能源效率 提升了四倍;這純粹是透過量化 (quantization)來實現(不需要重 新訓練)。
SpeedAI晶片能以M.2模組 形式供應,或是12 PFLOP的6晶片 PCIe板卡。Untether AI提供針對新 硬體更新的軟體開發套件(SDK), 能處理Untether的FP8格式量化、 最佳化、實體配置,以及叢集中橫 跨多個晶片或板卡的大型網路分區 (partitioning)。以M.2模組與PCIe 板 卡 形 式 提 供 的 S p e e d A I 晶 片,將 於 2023上半年提供樣品給初期客戶。
而在處理元件之間旋轉啟 動以節省能源的「肩旋轉肌」 (rotator cuff)互連,仍然保留。 在晶片上有一個新的、基於封包 (packet)的網路,在記憶體庫內以 及記憶體庫之間,以東西向與南北 向傳遞封包。
對Chiplet友善的架構
www.eettaiwan.com | 2022年10月 
(來源:Untether AI)
Untether AI的處理元件支援 INT4、INT8與BF16格式,以及自 家的FP8格式;該公司已經決定兩 種 F P 8 格 式,旨 在 平 衡 能 源 效 率、處 理量以及預測精度。該兩種格式具 備4位元尾數(mantissa,Untether 稱之為FP8P,表示精度)或3位元 尾數(Untether稱為FP8r,代表範 圍)──請注意這比Nvidia用於訓 練的FP8P與FP8r格式精確1尾數 位 元。
新的可擴展功能則包括2個 LPDDR連接埠,可支援最大32GB
Untether AI也透露將以同樣 的Boqueria架構打造更小的晶片,
INNOVATIONS

















































































   32   33   34   35   36