智慧邊緣運算實現更環保、更安全與高效的社會

Page 10 - 智慧邊緣運算實現更環保、更安全與高效的社會

P. 10

8
SPOTLIGHT
圖3:在低成本邊緣設備上用於機器學習運算的DSP。
再舉NPU為例，針對常見的基於邊緣的用例進行了優化，如物件檢測和分割，其性能和能效都比CPU高得多。加速器在全功能作業系統下處理複雜的工作負載，採用Cortex-A系統，具有寬匯流排介面(128位元)，支援動態隨機訪問記憶體(DRAM)。NPU 還整合直接記憶體訪問(DMA)單元，能從連接到DMA的系統記憶體中把神經網路的權重和啟動資料，在使用之前就預讀進來。卷積、池化、啟動函數和元素級函數(primitive element wise functions)等繁重的運算操作，都直接在NPU上運作，NPU不能支持的其他運算元則在與NPU緊密耦合的CPU(如Cortex-M)上自
www.eettaiwan.com | 2022年5月
• 用於物件/人臉檢測/識別的視覺管道;
(CMSIS)，對Cortex-M核心上運作的DSP程式碼進行了標準化。
動運作。另一種提高性能和減少記憶體需求的方法是對神經網路進行離線編譯和優化，包括算子和層的融合及重排運算順序。
• 用於語音分析的語音和音訊管道。
邊緣處理SoC包含多個處理元件，包括一種或多種上述類型。這些處理元件可以單獨使用或一起使用，在邊緣執行機器學習。可以設計各種優化的機器學習管道，以有效利用SoC的可用處理能力。邊緣機器學習運算是一項系統級優化工作，需要正確使用並啟用 SoC上的多個處理元件，以支援先進的即時邊緣機器學習處理。
用於異常檢測的序列資料處理管道處理管道和靈活的軟體架構提供開箱即用的，針對SoC和應用類型優化過的運作時支援。這有助於完全利用異質SoC功能實現機器學習，並最大限度提高組件的重複利用，這種方法的主要優勢包括改善開箱即用體驗(OOBE) 和易用性。
針對邊緣設備優化機器學習管道
圖4考慮了對基於影像資料的智慧(工業檢測、人臉/人物/物件檢測與分類及動作識別)不斷成長的需求。這種智慧推動了視覺快速整合基於機器學習的技術，基於手動特徵提取與使用的傳統視覺技術仍在大量使用，但是強大的運作推理引擎硬體的出現，結合廣泛可用的機器學習框架和基於
嵌入式邊緣設備正變得越來越複雜，功能也越來越強大，因為它們整合了更多硬體元件(例如
CPU、GPU、DSP和機器學習加速器)來執行各種形式的機器學習。然而，這些複雜的硬體元件必須得到有效利用。帶有GPU和NPU 等專用加速器的邊緣設備執行矩陣乘法的速度明顯高於CPU，機器學習框架可以有效地利用這些硬體元件。支援機器學習的軟體架構可以優化機器學習在SoC中的執行流程，以提供高性能、低功耗的解決方案。
特定應用的處理管道分多個階段進行設計，可以充分利用管道中的多步驟進行機器學習處理，主要應用領域包括:

8 9 10 11 12