Page 20 - 企業轉型腳步不停歇2022年數位優先世界成形
P. 20
18
業界趨勢
雲端競速:MLPref最新 AI訓練跑分結果出爐
Sally Ward-Foxton,EE Times歐洲特派記者
最新一回合的MLPref人工智慧(AI)訓練性能測試基準跑分結果出爐,微軟(Microsoft) Azure利用大規模 的Nvidia驅動實例,展現了世界速度最快的AI雲端系統。Azure的NDm A110 v4系列虛擬機器以2,048顆 Nvidia A100-80GB繪圖處理器(GPU)進行跑分,每一項測試都是在18分鐘內完成。
在8項不同工作負載的封閉 賽程(closed division)性能測試 中,Nvidia以內含高達4,320顆 A100加速器的系統,拔得其中7 項測試的頭籌。微軟Azure則於 第八項測試(醫療影像)取得領先 地位。AI晶片新秀Graphcore與 Habana Labs也在ResNet-50和 BERT兩項性能測試上取得了進 步的成果。
微軟Azure的MLPref跑分結 果在全球前100大超級電腦中排 名第十。Nvidia內部的AI超級電腦 Selene,規模是前者的兩倍,目前 排名世界第六。
www.eettaiwan.com | 2022年1月
微軟Azure
此外Azure在3D醫療影像的 3D Unet性能測試基準項目上取 得第一,利用768顆GPU,以1.262 分鐘完成訓練(Nvidia採用768顆 GPU的系統在3D Unet項目跑分 結果是1.373分鐘)。而微軟的目標 之一,就是展示Azure雲端性能可 以與現場部署設備媲美。
系統,進行龐大、最先進模型的 訓練可能也會需要花費幾個月的 時間,而不具備擴充性,就無法讓 最新AI模型有所進展。規模也很重 要;他指出,AI專案的快速進化能 力是關鍵,「我們常見的一個錯誤 認知是,只利用訓練模型的基礎建 設成本來考量(投資報酬率);但使 用者不只該關心基礎建設成本,也 要注意他們昂貴的資料科學團隊 生產力,以及最終的產品上市/更 新時間是否能比競爭對手更快。」
Azure的NDm A110 v4系列 虛擬機器,依需求可從1台擴充到 256台,或者說從8顆GPU擴充至 2,048顆。在Azure雲端就利用了 2,048顆GPU,展現了在僅超過 25秒多一點點的時間內,就能完 成整個BERT自然語言處理模型
Nvidia
Nividia參與測試的系統則是 為了展現執行大規模AI訓練的能 力。「擴充至更大的叢集實際上是 AI訓練時最困難的部分,而Nvidia 的AI平台在這方面擁有龐大的優 勢;」Nvidia加速運算產品管理資 深總監Paresh Kharya表示:「擴 充性真的很重要,因為所有事情都 會成為瓶頸,這是很困難的問題, 從分配、協調工作到資料的移動,
Selene以4,320顆GPU進行 性能測試基準跑分,是這一回合 測試中規模最大的系統。Nvidia 表示,與Graphcore最快的系統 (採用256個加速器)相較,其跑分 結果在速度上快了30倍,而比起 Habana Labs的最大系統(同樣 採用256個加速器),Nvidia系統 則是快了53倍。
訓練的能力。而最困難的MiniGo 性能測試基準,Azure以1,792顆 GPU、在低於17.5分鐘的時間內 完成訓練。
每件事都會成為瓶頸。」 Kharya表示,就算是Selene
在個別加速器晶片的效
INDUSTRY TRENDS