Page 18 - 實現系統級效能、功耗與面積的3D-IC小晶片設計
P. 18
16
DMS應用將催生處理器領域新星?
Colin Barnden,EE Times專欄作者
在2022年度國際消費性電子展 (CES 2022)剛落幕時,友刊《Ojo- Yoshida Report》發表了一篇題為 「駕駛員監控系統嵌入式挑戰」 (The DMS Embedding Challenge) 的技術白皮書,供稿的是澳洲DMS 方案供應商Seeing Machines, 文章作者描述了產業標準CPU與 SoC通常與高效率DMS處理所需 的專門處理與流水線架構不甚匹 配的情況。
訊號處理和神經網路。」 根據Seeing Machines的說
始於微末
文中寫道:「DMS產品本質是 高性能的即時運算系統。從處理技 術的角度來看,視訊被推向一條流 水線,於一系列階段以連續的畫素 串流(stream of pixels)運作,在其 中互連演算法(或者稱之為DMS「引 擎」)的階層結構(hierarchies)會從 影像資料中『榨』出並提取所需資 訊,將高階層資訊從一個階段傳遞 到下一個階段,最後產生一組低頻 寬的高水準(高價值)結果,像是駕 駛員正往哪裡看,以及他們是否分 心 或 受 到 損 傷。」
Seeing Machines與Arm相似 的地方在於,前者決定開發一個專 屬架構,能盡可能以最高效率執行 DMS導向的處理任務。
從英國劍橋(Cambridge)郊 外一座改建穀倉草創的Arm,躍升 為在手機(以及後來的智慧型手機) 領域佔據全球主導地位,並將其業 務穩步擴展至消費性電子、車用、 工業、醫療和通訊基礎設施等領 域。在過去的30年,Arm利用CPU 核心──從最初的ARM1到最新的 Cortex-A710和Cortex-X2──授 權模式,建立了一個廣泛的合作夥 伴生態系統。
該文章作者接著寫道:「在包 含DMS功能的車用嵌入式系統中, 可以說幾乎都得採用專門的處理器 設計以加速流水線的各個階段。不 是因為通用CPU不能執行該流水線 作業,只是因為通用CPU的資源幾 乎永遠都不夠,而且通常有更有效 率的方法可執行特定類型的功能, 包括影像預處理、電腦視覺運作、
其技術文章作者敘述了一種軟 硬體協同設計方法的優點,然後為 該公司開發的Occula神經處理單 元(neural processing unit,NPU) 之優勢做出總結:「雖然Occula NPU起初是為DMS解決方案所設 計打造,但它與Seeing Machines 的DMS演算法堆疊結合後,可為更 廣泛的產品提供性能優勢——包 括所有對價格或功率敏感的產品, 並且能藉由理解人類的情境資訊 (contextual information)帶來優 勢。」
起家於澳洲首府坎培拉 (Canberra)市郊一個鮮為人知的 區域Fyshwick,SeeingMachines 數年來也在追求與Arm大致相似授 權商業模式;該公司在2020年9月 宣佈其新一代車用市場戰略,其中 包含三大支柱:
www.eettaiwan.com | 2022年4月
法,將DMS演算法映射到既定晶片 時,遇到的問題幾乎都與資料流程 效率不彰,以及晶片上/晶片外記憶 體未達最佳標準的使用有關。該文 章作者的觀察是:「加速器通常能 以閃電般的速度完成數值運算, 但將資料移動到流水線的下一階段 時,不得不在外部DDR記憶體中緩 衝資料,而這會讓我們大失所望。 這再次表明晶片在設計時並未將 針對DMS流水線配置納入考量。」
Arm在嵌入式處理領域的勝 利果實種子,是在1990年代初期 播下的,當時的願景出自於市場對 省電處理器核心的龐大需求,結合 IP授權的商業模式。其商用化的成 功首先是在手機應用領域,始於與 TI合作為Nokia設計的GSM基頻 處理器。
作者的結論是:「開發Occula 不僅是為了解決範圍有限的DMS應 用,還能更廣泛地用於理解人類。」
1. Fovio晶片,採用了Xilinx Zynq-7000 FPGA技術針對 駕駛員和乘客監控進行了最 佳 化。
2. 嵌入式駕駛員監控引擎 (e-DME),對已加速處理技術
INDUSTRY TRENDS