Page 32 - 5G SA開台多重無線技術測試再添挑戰
P. 32

 30
創新天地
 加拿大新創Untether AI第二代 推論晶片支援邊緣應用
Sally Ward-Foxton,EE Times歐洲特派記者
 在8月下旬以虛擬形式舉辦的年度Hot Chips大會上,總部位於加 拿大的新創公司Untether AI發表了支援人工智慧(AI)推論的第二 代晶片架構;以及採用該全新架構的首款晶片。該公司也計劃將該 晶片架構擴展至邊緣與端點加速器。
都可能導致重大財務虧損的推薦 任務,以及像是自動駕駛等安全 導 向 應 用。」
Untether AI的第二代架構 Boqueria以與第一代相同的記憶 體內運算(at-memory compute)概 念為基礎,該晶片內含總計238MB 的SRAM,排列成729個記憶體庫 (memory banks),總記憶體頻寬 約1 PB/s。該記憶體庫內含處理元 件(processing elements)、控制器 核心(controller cores)以及連網元 件(networking elements)。
Untether AI的新架構內部代 號為Boqueria,能因應大規模神 經網路的發展趨勢,包括用於自 然語言處理以及其他任務的變換 網路(transformer networks), 需要省電的端點應用,還有需要 將性能、省電與預測精準度結合 的應用。
內含超過1,400顆最佳化的RSIC-V 核心,是《EE Times》所見過的 商用晶片中核心數最多的──打 敗了另一家新創公司Esperanto 的紀錄。
第一款採用Boqueria架構的 晶片SpeedAI,是用於資料中心 的推論加速器,峰值功耗(66W)下 能以FP8格式達到2 PFLOPS的運 算性能,或是在更常見的30~35W 功率封包下,達到30 TFLOPS/W (Untether的第一代晶片RunAI, 能以INT8格式達到500 TOPS算 力)。這種程度的性能意味能以每 瓦每秒750次查詢的速率執行以 BERT模型為基礎的推論;根據該 公司的說法,是目前尖端GPU性 能的15倍。
「這樣的性能表現是不同 因素的融合,」Untether AI產品 副總裁Bob Beachler接受《EE Times》訪問時表示:「包括電路 設計、資料類型,以及了解神經網 路如何運作──與卷積網路相較, 變換網路是如何運作?──所有 這些都能在我們的第二代晶片中 體現。」該公司在開發Boqueria 架構時,仔細地考慮了靈活性、性 能與可擴展性之間的平衡。
每一個記憶體庫都有兩個 RISC-V處理器,取代第一代晶片中 自家研發的RISC設計;它們具備多 執行緒(multi-thread)能力,可同 時驅動多行處理元件,因此提升 粒度與效率。Untether AI已經為 任務添加了超過20條客製指令, 包括矩陣向量乘法以及簡約列函 數(row reduce functions),像是 在變換網路中發現的SoftMax或 LayerNorm。
該尺寸35mm見方的晶片採用 台積電(TSMC)的7奈米製程技術,
Beachler表示:「要打造通 用AI運算架構,你必須有正確的 粒度(granularity)與靈活性,才能 執行這麼多神經網路,而且能從小 到大繼續擴展;」他補充指出,精 確度對推論工作負載來說也很重 要,特別是準確度差幾個百分點
Beachler解釋,在第一代的 架構中,每一個記憶體庫內的處理 元件是以單一控制器來控制,該控 制器可能會執行(或不執行)相同的
www.eettaiwan.com | 2022年10月 
記憶體內運算
INNOVATIONS

















































































   30   31   32   33   34