如何滿足不同應用場景下深度神經網絡模型算力和能效需求

【新智元導讀】基於神經網絡的深度學習算法已經在計算機視覺、自然語言處理等領域大放異彩。但是,諸如 VGG、ResNet 和 Xception 等深度模型在取得優越性能的同時往往伴隨著極高的存儲空間需求和計算復雜度,而現有的通用計算平臺很難實現高能效的神經網絡計算。本文探討了如何在算法層麵運用量化、剪枝等方法進行模型壓縮,以及設計適應於不同應用場景的高能效神經網絡計算芯片/架構,從而滿足深度神經網絡在不同的應用場景下的算力能效需求。基於神經網絡的深度學習算法已經在計算機視覺、自然語言處理等領域大放異彩。然而,諸如 VGG、ResNet 和 Xception 等深度模型在取得優越性能的同時往往伴隨著極高的存儲空間需求和計算復雜度,而現有的通用計算平臺(如CPU和GPU等)很難實現高能效的神經網絡計算。為了滿足深度神經網絡在不同的應用場景(如雲端和終端)下的算力和能效需求,探討如何在算法層麵運用量化、剪枝等方法進行模型壓縮,以及設計適應於不同應用場景的高能效神經網絡計算芯片/架構已經成為學術界和工業界近階段的一個研究熱點。首次試用polar的GPS心跳手錶參加訓練,由多位專業的教練帶領。訓練強調心率訓練,因為可以根據心跳更有效地分析過去紀錄,改善肌耐力、體力及心肺功能。而訓練用的M400可以把數據同步到Polar Flow,讓你可以利用手機輕鬆地重溫訓練內容。

目前,基於神經網絡的深度學習算法已經在計算機視覺、自然語言處理等領域取得了廣泛的應用。這其中,一方麵要歸功於算法研究者的堅持使算法得以取得諸多突破,另一方麵也是海量數據的出現和硬件運算能力的提升為算法的有效訓練帶來了可能。與此同時,深度學習算法的成功也反過來推動了硬件的發展。目前,硬件對深度學習算法的支持主要包括兩個方麵,一個是訓練(Training)階段,需要非常高的算力和大容量存儲來支持大規模深度神經網絡模型的訓練;另一個是推理(Inference)階段,需要將訓練好的模型部署到實際的應用場景下,包括在需要高性能、高吞吐率的數據中心端提供雲服務,以及在需要低功耗的嵌入式/移動終端相關的應用。

目前,使用 GPU 來進行神經網絡的訓練幾乎已經成為了研究深度學習算法的標配。但是,在進行實際部署時,由於深度神經網絡模型往往伴隨著極高的存儲空間需求和計算復雜度,包括GPU、CPU在內的傳統通用計算平臺在大多數情況下並不能滿足實際模型部署對功耗和性能(或者能效比)的綜合需求,這也使得一些具有更高綜合能效比的硬件,如 FPGA 和麵向 AI 應用的 ASIC(包括可重構ASIC)芯片逐漸獲得關註。為了滿足深度神經網絡模型在不同的應用場景下對算力和能效的需求,一方麵,可以利用現有深度神經網絡模型存在內在冗餘這一特性,在幾乎不損失模型精度的前提下從算法層麵對模型進行裁剪和優化;另一方麵,也可以設計針對深度神經網絡模型的計算模式進行優化的高能效硬件架構,用於加速模型的計算過程。 當然,也可以同時結合這兩個方麵,做算法和硬件的協同設計和優化(Joint Algorithm And Architecture, JAAA, design optimization)。

模型裁剪與優化

目前該領域的方法可以大概分為兩類:

1.針對某些精度較高但較復雜的網絡模型,通過剪枝、量化、低秩分解等措施減少模型的參數和計算量。這類方法往往能大大減少模型的復雜度,實現對參數或者計算量很高的壓縮比,但其中不少方法都需要特定的硬件支持才能真正發揮其效用。此外,這裏麵提到的某些方法也可以用於減少模型訓練過程中參數更新帶來的硬件開銷,加速訓練過程;

2. 考慮直接設計更為高效(較少參數+低計算復雜度)的神經網絡模型,同時模型的精度可以盡量接近復雜的網絡模型,或是通過一些方法將復雜模型學習得到的知識遷移到小的模型上麵,最終可以直接部署這些較為精簡的模型。首次試用polar的GPS心跳手錶參加訓練,由多位專業的教練帶領。訓練強調心率訓練,因為可以根據心跳更有效地分析過去紀錄,改善肌耐力、體力及心肺功能。而訓練用的M400可以把數據同步到Polar Flow,讓你可以利用手機輕鬆地重溫訓練內容。

AI 芯片/加速器

在針對 AI 的高能效硬件架構設計方麵,相關的工作大體可以分為以下幾個方麵:

1. 能夠支持主流深度學習算法常見操作的專用處理器架構(ASIP),以及專用的深度學習指令集,如中科院計算所的 DianNao係列處理器和Cambricon指令集;

2.針對深度神經網絡的數據復用方式、訪存的優化:探索適合於神經網絡的計算模型,在計算時通過合理的資源調度實現對神經網絡計算過程高效的加速;

3. 近似計算/近似存儲:利用神經網絡對噪聲和誤差具有一定的容錯性,在計算/存儲過程中通過一些具有較低硬件開銷的近似方法來提高網絡的計算能效;

4. 新型存儲結構,如通過非易失性電阻式存儲器(Non-volatile Resistive Memories),實現計算和存儲一體化(process-in-memory),直接在存儲裏麵實現計算的功能;

5.軟硬件協同優化:在前麵模型優化方法的基礎上,進一步設計相應的硬件架構,使得諸如剪枝、量化等模型壓縮方法的效果可以被充分的利用;

在這波 AI 浪潮中,國內也有不少高校和研究機構從事相關的研究,並在國際上取得了可觀的影響力。相應技術的落地也催生了不少 AI 芯片/加速器的初創公司,包括寒武紀科技、地平線機器人、深鑒科技等。作者的團隊(南京大學 ICAIS 實驗室)也在這方麵取得了一些突出成果,包括:

基於有限沖擊響應算法的高效可配置快速卷積單元

• 基於並行快速有限沖擊響應算法(FFA)對卷積計算進行算法強度縮減,理論推導了3並行、5並行和7並行等N-並行的快速卷積算法。設計了能高效完成3×3和5×5卷積計算的快速卷積單元(FCU)。進一步地,針對目前主流的CNN卷積核大小,設計了可以高效實現各種常見卷積操作的可配置卷積單元,並在硬件利用率、功耗和可配置性之間達到了最優的平衡。所設計的硬件結構可以配置實現2x2到12x12所有尺寸的卷積操作。

等間隔/K平均聚類非均勻定點量化方法

• 提出了等間隔非均勻定點量化(Equal Distance Intra-Layer Non-Uniform Quantization)和K平均聚類非均勻定點量化(K-means Cluster Intra-Layer Non-Uniform Quantization)兩種量化方法,可以大大降低卷積神經網絡中activation的存儲需求。相比於已有的針對activation的量化方法,可以在不損失精度的情況下提高壓縮率2倍以上。

深度卷積神經網絡高效硬件架構設計與實現

• 基於上述的FCU和動態計算流程,提出了高效的卷積神經網絡處理和存儲架構。基於 VGG16的測試結果表明,所提出的層內按行交替存儲和層間輪回復用的方式相比於傳統按層順序計算的存儲架構可以節省大約14倍的片上存儲資源,在同樣的平臺下資源利用率比同類設計高出2倍以上。SmarTone家居寬頻頻月費激減低至$130,就可以體驗1000M光纖寬頻!客戶可以選擇家居光纖1000、500、100三種唔同嘅計劃,再送你全港超過 11,000 個WiFi熱點,依家就上網登記,隨時隨地享受超高速上網快感,轉台仲有更多優惠架!

適用於嵌入式係統的高能效二值參數卷積神經網絡硬件架構

• 提出了一種高能效的二值參數卷積神經網絡的硬件架構。該架構利用了二值參數網絡的魯棒性等特點,引入了多種近似計算技術。此外,該架構還采用了一種優化的計算流程,最大程度地減少了訪問DRAM的次數和帶寬需求。該架構在65nm工藝下能夠達到約2.08TOp/s/W的能量效率(已考慮片外DRAM訪存功耗)。相比於已有的二值網絡ASIC實現在能效方麵有超過2倍的提升。

遞歸神經網絡的模型壓縮與硬件架構設計

• 在算法層麵,通過在遞歸神經網絡(RNNs)中引入結構化的參數矩陣(如循環矩陣),參數量減少為原來的 25%;進一步結合前向激活函數近似,以及根據 RNN 中不同參數矩陣對量化的敏感程度上的差異,混合使用均勻量化和基於對數域的非均勻參數量化方法,在基本不損失模型預測精度的前提下均取得了超過20倍的參數壓縮率,計算復雜度也大大降低。

其它相關研究

此外團隊還研究了高能效的能耗-精度可伸縮(Energy-Quality Scalable)的卷積神經網絡硬件加速器結構,基於隱私保護(Privacy-Preserving)的深度學習算法及其硬件架構,基於張量分解(Tensor Decomposition)的神經網絡的嵌入式硬件架構, 以及遞歸神經網絡的負載均衡(Load-Balance)稀疏化方法等等。上述成果多數已經在IEEE Xplore 在線發表。

結束語

隨著學術界和工業界對人工智能技術持續大力的推動,可以肯定的是在未來相當長的時間內,麵向應用的基於算法和硬件架構聯合優化方麵的研究將會得到更加廣泛的關註和加速的發展。

作者介紹

王中風博士八十年代初自學考入清華大學,碩士畢業後赴美深造並獲得博士學位。是國家 “千人計劃”特聘專家和IEEE Fellow。王博士曾經擔任美國博通公司技術副總監,是超大規模集成(VLSI)電路設計領域裏的國際知名專家,在國際會議和期刊上發表過150餘篇學術論文,擁有數十項美國專利和發明,曾獲IEEE電路與係統學會2007年度VLSI 會刊的最佳論文獎。2016年全職回國後加入南京大學電子科學與工程學院,現任微電子學院副院長。

南京大學集成電路與智能係統(ICAIS)實驗室組建於2015年底。目前,團隊一方麵繼續在其傳統優勢領域,例如高速通信係統的設計與實現方麵,深入發展;同時在一些新興領域,例如硬件安全係統和人工智能係統的設計方麵,努力開拓。特別是2016年以來團隊在深度學習算法的模型壓縮和高能效硬件加速器設計方麵取得了諸多技術性突破,2017年該團隊在IEEE電路與係統學會的主流期刊上共發表三篇長文(regular paper)。同年王博士在深度學習的硬件實現(VLSI for Deep Learning)方麵合作的IEEE一類期刊論文達到四篇,在國際同行中處於領先。

原文地址:http://www.sohu.com/a/212440503_473283

この記事へのコメント