深度卷積神經網絡的發展及其在計算機視覺領域的應用

來源：職稱論文發表指導網作者：田編輯發布時間：

　　摘要：摘要作為類腦計算領域的一個重要研究成果，深度卷積神經網絡已經廣泛應用到計算機視覺、自然語言處理、信息檢索、語音識別、語義理解等多個領域，在工業界和學術界掀起了神經

　　摘要作為類腦計算領域的一個重要研究成果，深度卷積神經網絡已經廣泛應用到計算機視覺、自然語言處理、信息檢索、語音識別、語義理解等多個領域，在工業界和學術界掀起了神經網絡研究的浪潮，促進了人工智能的發展．卷積神經網絡直接以原始數據作為輸入，從大量訓練數據中自動學習特征的表示．卷積神經網絡具有局部連接、權值共享和池化操作等特性，可以有效降低網絡復雜度，減少訓練參數的數目，使模型對平移、扭曲、縮放具有一定程度的不變性．目前，深度卷積神經網絡主要是通過增加網絡的層數，使用更大規模的訓練數據集，以及改進現有神經網絡的網絡結構或訓練學習算法等方法，來模擬人腦復雜的層次化認知規律，拉近與人腦視覺系統的差距，使機器獲得“抽象概念”的能力．深度卷積神經網絡在圖像分類、目標檢測、人臉識別、行人再識別等多個計算機視覺任務中都取得了巨大成功．該文首先回顧了卷積神經網絡的發展歷史，簡單介紹了Ｍ－Ｐ神經元模型、Ｈｕｂｅｌ－Ｗｉｅｓｅｌ模型、神經認知機、用于手寫識別的ＬｅＮｅｔ以及用于ＩｍａｇｅＮｅｔ圖像分類比賽的深度卷積神經網絡．然后詳細分析了深度卷積神經網絡的工作原理，介紹了卷積層、采樣層、全連接層的數學表示及各自發揮的作用．接著該文重點從以下三個方面介紹卷積神經網絡的代表性成果，并通過實例展示各種技術方法對圖像分類精度的提升效果．從增加網絡層數方面，討論并分析了ＡｌｅｘＮｅｔ、ＺＦ－Ｎｅｔ、ＶＧＧ、ＧｏｏｇＬｅＮｅｔ和ＲｅｓＮｅｔ等經典卷積神經網絡的結構；從增加數據集規模方面，介紹了人工增加標注樣本的難點以及使用數據擴增技術對神經網絡性能提升的作用；從改進訓練方法方面，介紹了包括Ｌ２正則化、Ｄｒｏｐｏｕｔ、ＤｒｏｐＣｏｎｎｅｃｔ、Ｍａｘｏｕｔ等常用的正則化技術，Ｓｉｇｍｏｉｄ函數、ｔａｎｈ函數以及ＲｅＬＵ函數、ＬＲｅＬＵ函數、ＰＲｅＬＵ函數等常用的神經元激活函數，ｓｏｆｔｍａｘ損失、ｈｉｎｇｅ損失、ｃｏｎｔｒａｓｔｉｖｅ損失、ｔｒｉｐｌｅｔ損失等不同損失函數，以及ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ技術的基本思想．針對計算機視覺領域，該文重點介紹了卷積神經網絡在圖像分類、目標檢測、人臉識別、行人再識別、圖像語義分割、圖片標題生成、圖像超分辨率、人體動作識別以及圖像檢索等方面的最新研究進展．從人類視覺認知機制出發，分析了視覺信息分層處理和“大范圍優先”視覺認知過程的相關理論成果和對當前計算模型的一些理論啟示．最后提出了未來基于深度卷積神經網絡的類腦智能研究待解決的問題與挑戰．

　　關鍵詞類腦智能；神經網絡；深度學習；計算機視覺；視覺認知

深度卷積神經網絡的發展及其在計算機視覺領域的應用

　　１引言

　　讓機器以類似人腦的方式進行快速學習與準確認知，是科學家們長期探索與追求的一大科學夢想．幾十年來，腦神經科學和心理學等領域在人腦結構及認知機理等方面的許多研究成果都被轉化為人工智能領域的計算模型，極大地促進了后者的發展與４５４計算機學報２０１９年進步．人工神經網絡正是在這種背景下被提出的．它是利用計算模型模擬大腦神經系統的結構和功能，運用大量的簡單運算單元，由人工方式建立起來的神經網絡系統．人工神經網絡的誕生及發展是類腦計算領域的一個最為重要的研究成果．

　　２卷積神經網絡及其相關技術

　　卷積神經網絡是由用于特征提取的卷積層和用于特征處理的亞采樣層交疊組成的多層神經網絡．典型的卷積神經網絡結構［１２］如圖２所示，網絡輸入是一個手寫數字圖像，輸出是其識別結果，輸入圖像經過若干個“卷積”和“采樣”加工后，在全連接層網絡實現與輸出目標之間的映射．通常卷積神經網絡中，每一層神經元節點只與其鄰近上下層局部感受野內的神經元節點連接．這種局部連接觀點與Ｈｕｂｅｌ、Ｗｉｅｓｅｌ從貓科動物的視覺系統中發現的局部感知觀點相一致．圖２中的輸入圖像的大小為３２×３２像素，含Ｒ、Ｇ、Ｂ三個通道．卷積層Ｃ１使用大小為５×５的多個卷積核對輸入圖像的各個通道做卷積濾波，采取圖像的局部特征，得到和卷積核數量相同、大小為２８×２８的特征圖．然后將這些特征圖按一定的方式組合起來，作為卷積層的輸出．圖中原特征圖經過采樣層Ｓ２后，尺寸被縮減至１４×１４，其中特征圖上每個神經元與上一層中對應特征映射的２×２鄰域相連，并據此計算輸出．卷積神經網絡中的卷積層中的神經元是模擬Ｈｕｂｅｌ－Ｗｉｅｓｅｌ模型中的簡單細胞，降采樣層的神經元模擬復雜細胞，而特征圖上的神經元共享同一個卷積核，對應某種特定取向的簡單細胞．進行若干個卷積—采樣操作，可以得到尺寸很小但數量很多的特征圖．將特征圖按一定方式展開，拼接為一維向量輸入全連接層中，然后經過若干全連接層和輸出層連接完成識別任務．

　?。尘矸e神經網絡的應用

　　卷積神經網絡是近十幾年來類腦計算領域取得的一個重大研究成果，它在計算機視覺、語音識別、自然語言處理、多媒體等諸多領域都取得了巨大成功．在計算機視覺領域的各類任務中，圖像分類任務是根據圖像信息中反映的不同特征，把不同類別的目標（如鳥、人、車、飛機等）區分開來，即給每幅圖片分配一個語義類別標記，而目標檢測是定位出某類目標在圖像中出現的區域．與圖像分類任務要建立圖像級理解不同，圖像語義理解要得到圖像像素級別的目標分類結果．圖片標題生成也是建立于圖片的語義理解上，要求自動產生自然語言對圖片的目標及目標間關系進行描述．相比于圖像分類和目標檢測關注于多類或單類物體目標的區分或定位，人臉識別和行人再識別任務則分別聚焦于人臉和行人的身份辨識．另外一種任務———圖像超分辨率，能夠提供更清晰的圖像以及更多的圖像細節，為高層視覺任務提供更好的輸入．

　　參考文獻

　?。郏保荩龋酰猓澹欤模?，ＷｉｅｓｅｌＴＮ．Ｒｅｃｅｐｔｉｖｅｆｉｅｌｄｓ，ｂｉｎｏｃｕｌａｒｉｎｔｅｒａｃｔｉｏｎａｎｄｆｕｎｃｔｉｏｎａｌａｒｃｈｉｔｅｃｔｕｒｅｉｎｔｈｅｃａｔ’ｓｖｉｓｕａｌｃｏｒｔｅｘ．ＴｈｅＪｏｕｒｎａｌｏｆＰｈｙｓｉｏｌｏｇｙ，１９６２，１６０（１）：１０６－１５４

　?。郏玻荩疲酰耄酰螅瑁椋恚幔耍停椋幔耄澹樱桑簦铮裕危澹铮悖铮纾睿椋簦颍铮睿海粒睿澹酰颍幔欤睿澹簦鳎铮颍耄恚铮洌澹欤妫铮颍幔恚澹悖瑁幔睿椋螅恚铮妫觯椋螅酰幔欤穑幔簦簦澹颍睿颍澹悖铮纾睿椋簦椋铮睿桑牛牛牛裕颍幔睿螅幔悖簦椋铮睿螅铮睿樱螅簦澹恚螅停幔?，ａｎｄＣｙｂｅｒｎｅｔｉｃｓ，１９８３，１３（５）：８２６－８３４

　?。郏常荩疲酰耄酰螅瑁椋恚幔耍危澹铮悖铮纾睿椋簦颍铮睿海粒螅澹欤妫铮颍纾幔睿椋椋睿纾睿澹酰颍幔欤睿澹簦鳎铮颍耄恚铮洌澹欤妫铮颍幔恚澹悖瑁幔睿椋螅恚铮妫穑幔簦簦澹颍睿颍澹悖铮纾睿椋簦椋铮睿酰睿幔妫妫澹悖簦澹洌猓螅瑁椋妫簦椋睿穑铮螅椋簦椋铮睿拢椋铮铮欤铮纾椋悖幔欤茫猓澹颍睿澹簦椋悖螅保梗福?，３６（４）：１９３－２０２

　　張順１）龔怡宏２）王進軍２

聲明:

①文獻來自知網、維普、萬方等檢索數據庫，說明本文獻已經發表見刊，恭喜作者.

②如果您是作者且不想本平臺展示文獻信息,可聯系學術顧問予以刪除.

《道路交通事故責任鑒定標準相關要點分析》

上一篇：信息技術媒介下數學史融入初中數學的教學思考
下一篇：體育高職生計算機課中學習力的培養探究