Page 43 - 5G SA開台多重無線技術測試再添挑戰
P. 43
很有挑戰的部分。 多數的AI訓練使用32bit浮點
數(FP32)格式,格式由1位代表正負 符號、8位指數及23位尾數組成;直 接用32bit推論(Inference)準確度最 高,但 功 耗 大,且 要 頻 繁 跟 D R A M 做 資料交換,也會影響到運算時間,因 此大部分推論會轉為16bit或8bit格 式運算。轉換到較少位元的格式, 運算所需DRAM空間相對小,但準 確度則會被影響;若以8bit INT8的 格式推論來說,資料量是32bit的4 分之1,但準確度卻會降到99.87%。
配FFP8,也就組成其獨特的高效率 AI加速推薦系統,預計今年第四季 推出完整系統,展示每推論僅需1微 焦耳(Microjoule)的能效。能有這樣 的成果,林永隆指出,是軟硬體相輔 相成的結果,由於FFP8相對INT8運 算較複雜,也需要解讀資料格式,為 維持運算速度,就得有相對應的電 路設計在運算後做正確資料解讀。
來也會走到6bit、4bit甚至2bit,或 是混合格式的推論,以他們的目標 來說,會持續嘗試降低成本,同時 維持準確度,軟硬體部分需要同時 做精進。他表示,AI發展非常快速, 現在產品做出來到市場推廣是第一 步,下一世代的AI,技術面還有很多 可能性,包括異質整合、3D封裝等 前瞻技術,現在都已在進行研究。
100%跟99.87%僅0.13%的差 異,對自然語言分析、醫療影響、以 及推薦系統等要求高準確度的AI應 用來說,有著極大的影響;以推薦 來 說,準 確 度 相 差 1 %,都 可 能 攸 關 某個被推薦的內容會不會被點擊, 也就直接影響到平台的收益。能提 升8bit格式推論時的準確度,便是 創鑫智慧的AI加速晶片的特點。
創鑫智慧的AI加速晶片,預計 搭配大容量LPDDR (Low Power DDR)系列DRAM製作成雙M.2 (Dual M.2)的模組形式走進應用市場,可 用於開放運算計畫(Open Compute Project,OCP)的GlacierPoint載板 卡,以及一般伺服器的PCIe Gen 5 載板卡,最快今年第四季送樣。安 裝了AI加速晶片後,當資料中心的伺 服器收到AI運算的需求,CPU就會 把推論工作卸載(offload)給AI加速 晶片,運算就在晶片裡完成後傳回, 大幅縮短運算時間及降低功耗。
針對異質整合,目前創鑫智慧 已申請加入UCIe (Universal Chiplet Interconnect Express)聯盟。UCIe 聯盟又稱小晶片(Chiplet)互連產業 聯盟,包括台積電、日月光、高通、微 軟、AMD等大廠都參與其中,林永隆 期許,如同個人電腦透過PCIe介面做 系統跟系統的連接,透過加入聯盟跟 業界用相同的傳輸介面,就能將心力 更集中在研發AI核心引擎技術上。
據創鑫智慧提供的數據,假設 32bit格式進行推論準確度為100%, 16bit BF16格式的推論準確度為 99.998%;由此可見,使用他們AI加 速晶片,可讓INT8推論的準確度趨 近BF16。此外,為進一步提高8bit 推論的準確度,創鑫智慧打造另一 項秘密武器「FFP8」的浮點格式, 該格式可以根據資料的特性,提供 更有彈性的浮點數配置方式;透過 FFP8的格式推論搭配其AI加速晶 片,準確度能拉升至99.996%。
技術提升腳步不停歇 劍指世界級AI加速器供應商
林永隆表示,若想像是在跑一 場馬拉松,當前的目標就是一步一 步穩健地跑穩,達成各階段的里程 碑,希望找到能經得起考驗,對他們 做的事情有感,且想做AI、有意願進 入新創公司的人才加入團隊,「我們 對未來的願景,是要成為世界級的 A I 加 速 器 供 應 商!」
FFP8是創鑫智慧用三年時間 研發出來的心血結晶,去年申請美 國專利,今年通過;其AI加速晶片搭
隨著AI技術持續演進,林永隆 認為,現在用8bit的格式推論,未
INTERVIEW
創鑫智慧的RecAccel方案搭配其獨門的FFP8浮點格式,可有效提升8bit推論的準確度。 (來源:創鑫智慧)
41
2022年10月 | www.eettaiwan.com