前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)的訓練方法范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:深度學習;行為識別;神經(jīng)網(wǎng)絡(luò)
1 概述
動作行為識別是計算機視覺領(lǐng)域中的一個研究熱點,已經(jīng)廣泛應(yīng)用于智能監(jiān)控、人機交互、視頻檢索等領(lǐng)域中[1]。動作行為識別技術(shù)是通過對視頻或者圖像中人體動作行為做出有意義的判斷。有效表達圖像(視頻)中的實際目標和場景內(nèi)容是最基本,最核心的問題。因此,對于特征的構(gòu)建和選擇得到廣泛關(guān)注,例如STIP、SIFT、MSER等。但是,能通過無監(jiān)督方式讓機器自動從樣本中學習到表征樣本的特征,會讓人們更好地利用計算機來實現(xiàn)人的視覺功能。而深度學習作為神經(jīng)網(wǎng)絡(luò)的延伸和發(fā)展,是通過逐層構(gòu)建一個多層網(wǎng)絡(luò)來使得機器自動學習到隱含在數(shù)據(jù)內(nèi)部的關(guān)系,從而讓學習到的特征更加準確性。
文章旨在探討深度學習與機器學習(神經(jīng)網(wǎng)絡(luò))之間的關(guān)系,并且介紹深度學習的由來、概念和原理;同時介紹目前深度學習在計算機視覺中的應(yīng)用。最后提出深度學習目前發(fā)展所面臨的問題,以及對未來的展望。
2 深度學習
2.1 深度學習概述
深度學習源于人工神經(jīng)網(wǎng)絡(luò)的研究,是機器學習的拓展。深度學習是經(jīng)過組合低層特征來形成更加抽象的屬性類別和特征,從中發(fā)現(xiàn)原始數(shù)據(jù)的特征表征[2]?,F(xiàn)在用于動作行為識別的技術(shù)是通過“動作表征”+“動作分類器”的框架來進行行為識別的。其中“動作表征”是人們手動設(shè)計特征獲取到的,也就是在目前識別框架內(nèi)存在一個對動作圖像(視頻)的預處理過程。
深度學習和淺層學習相對。目前許多學習算法是淺層網(wǎng)絡(luò)學習方法,具有一定的局限性,例如在樣本有限的狀況下,表示復雜函數(shù)的能力有限制,且對復雜分類問題的泛化能力也會受到一定約束[3]。而深度學習通過學習深層非線性網(wǎng)絡(luò)結(jié)構(gòu),達到復雜函數(shù)逼近,又能在樣本少的情況下學習原始數(shù)據(jù)的特征。BP算法作為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的典型算法,雖然訓練多層網(wǎng)絡(luò),但僅含幾層網(wǎng)絡(luò),訓練方法很不理想[3]。因為其輸入和輸出間非線性映射讓網(wǎng)絡(luò)誤差函數(shù)形成含多個極小點的非線性空間,因而經(jīng)常收斂到局部最小,且隨著網(wǎng)絡(luò)層數(shù)的增加,容易過擬合。而深度學習可以獲得分布式表示,通過逐層學習算法來得到原始輸入數(shù)據(jù)的主要變量。通過深度學習的非監(jiān)督訓練完成,同時利用生成性訓練避免因函數(shù)表達能力過強而出現(xiàn)過擬合情況。
2.2 深度學習原理
傳統(tǒng)機器學習僅含單層非線性變換的淺層網(wǎng)絡(luò)結(jié)構(gòu),而且淺層模型單一。這對于深度網(wǎng)絡(luò)來說易造成陷入最優(yōu)或產(chǎn)生梯度分散等問題。因此,Hinton等人在基于深度置信網(wǎng)(DBNs)的情況下提出非監(jiān)督貪婪逐層訓練算法,隨后提出了多層次自動編碼器深層結(jié)構(gòu),這給解決深層網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來了希望。此外Lecun等人提出的卷積神經(jīng)網(wǎng)絡(luò)是第一個多層次結(jié)構(gòu)的學習算法。同時深度學習還出現(xiàn)了許多結(jié)構(gòu):多層感知機、去噪自動編碼器、稀疏編碼等。
卷積神經(jīng)網(wǎng)絡(luò)是第一個真正采用多層次網(wǎng)絡(luò)結(jié)構(gòu),具有魯棒性的深度學習算法,通過探究數(shù)據(jù)在空間上的相關(guān)性,減少訓練參數(shù)的數(shù)量。而且卷積神經(jīng)網(wǎng)絡(luò)(CNN)適應(yīng)性強,善于發(fā)現(xiàn)數(shù)據(jù)的局部特征。它的權(quán)重共享結(jié)構(gòu)降低了網(wǎng)絡(luò)模型的復雜度,減少了權(quán)值的數(shù)量,使得卷積神經(jīng)網(wǎng)絡(luò)在模式識別中取得了很好的結(jié)果。
自動編碼器的核心關(guān)鍵是將原始圖像(視頻)輸入信號進行編碼,使用編碼后的信號來重建原始信號,使得兩者之間的重建誤差最小。通過將原始信號編碼成另一形式,能夠有效地提取信號中的主要信息,能夠簡潔地表達原始圖像(視頻)的特征。
3 深度學習的應(yīng)用
3.1 語音識別
從2009年開始,微軟研究院語音識別專家通過與Hinton合作,首先將RBM和DBN引入到語音識別聲學模型訓練中,使得語音識別的錯誤率相對減低30%,這徹底改變了語音識別原有的技術(shù)框架。在國際上,IBM、google等公司都快速進行了DNN語音識別的研究,并且速度飛快。國內(nèi)方面,阿里巴巴,科大訊飛、百度、中科院自動化所等公司或研究單位,也在進行深度學習在語音識別上的研究。
3.2 視頻中的動作行為識別
準確迅速識別視頻中人的動作行為對于視頻搜索和視頻監(jiān)控具有劃時代的意義。最近幾年,深度學習技術(shù)被應(yīng)用于視頻動作行為識別中。如Ji等人[4]提出多層網(wǎng)絡(luò)的3D卷積神經(jīng)網(wǎng)絡(luò)來學習視頻中的時空特征,并通過卷積來實現(xiàn)對整個視頻特征的學習,從而代替之前的時空興趣點檢測和特征描述提取。在TRECVID數(shù)據(jù)庫上進行的實驗取得了不錯效果。
4 結(jié)束語
文章對深度學習的主要概念進行了全面闡述,包括其由來、原理、研究進展和相應(yīng)的應(yīng)用等。在很多領(lǐng)域中,深度學習都表現(xiàn)了潛在的巨大價值,但深度學習作為淺層學習的延伸,仍處于發(fā)展階段,還有很多問題值得我們深入探討:
(1)我們需要了解深度學習的樣本復雜度,需要多少訓練樣本才能學習到足夠的深度模型。
(2)在推進深度學習的學習理論和計算理論的同時,我們是否可以建立一個通用的深度學習網(wǎng)絡(luò)模型,作為統(tǒng)一的框架來處理語音、圖像和語言。
(3)神經(jīng)網(wǎng)絡(luò)具有前饋性連接和反饋性連接,可是我們研究的深度網(wǎng)絡(luò)中還沒有加入反饋連接,這些都給深度學習的研究帶來了嚴峻的挑戰(zhàn)。
參考文獻
[1]王亮,胡衛(wèi)明,譚鐵牛.人運動的視覺分析綜述[J].計算機學報,2002,25(3):225-237.
[2]余凱,賈磊,陳雨強.深度學習的昨天、今天和明天[J].計算機研究與發(fā)展,2013,50(9):1799-1804.