前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:圖像分類;深度學(xué)習(xí);Caffe框架;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2016)35-0209-03
Research and Implementation of Image Classification Based on Convolution Neural Network
WANG Chao
(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)
Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.
Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network
S著計算機與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我們已經(jīng)進入了一個以圖像構(gòu)建的世界。但是面臨有海量圖像信息卻找不到所需要的數(shù)據(jù)的困境,因而圖像分類技術(shù)應(yīng)運而生。通過各種機器學(xué)習(xí)算法使計算機自動將各類圖像進行有效管理和分類,但是由于圖像內(nèi)容包含著大量復(fù)雜且難以描述的信息,圖像特征提取和相識度匹配技術(shù)也存在一定的難題,要使得計算機能夠像人類一樣進行分類還是有很大的困難。
深度學(xué)習(xí)是近十年來人工智能領(lǐng)域取得的重要突破,在圖像識別中的應(yīng)用取得了巨大的進步,傳統(tǒng)的機器學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò)模型,神經(jīng)網(wǎng)絡(luò)有大量的參數(shù),經(jīng)常會出現(xiàn)過擬合問題,因而對目標檢測準確率上比較低。本文采用卷積神經(jīng)網(wǎng)絡(luò)框架,圖像特征是從大數(shù)據(jù)中自動學(xué)習(xí)得到,而且神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深由很多層組成,通過重復(fù)利用中間層的計算單元來減少參數(shù),在特征匯聚階段引入圖像中目標的顯著信信息,增強了圖像的特征表達能力。通過在圖像層次稀疏表示中引入圖像顯著信息,加強了圖像特征的語義信息,得到圖像顯著特征表示,通過實驗測試,效果比傳統(tǒng)的圖像分類算法預(yù)測的準確度有明顯的提升。
1 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法
1.1 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)是描述生物神經(jīng)網(wǎng)絡(luò)運行機理和工作過程的抽象和簡化了的數(shù)學(xué)物理模型,使用路徑權(quán)值的有向圖來表示模型中的人工神經(jīng)元節(jié)點和神經(jīng)元之間的連接關(guān)系,之后通過硬件或軟件程序?qū)崿F(xiàn)上述有向圖的運行[1]。目前最典型的人工神經(jīng)網(wǎng)絡(luò)算法包括:目前最典型的人工神經(jīng)網(wǎng)絡(luò)有BP網(wǎng)絡(luò) [2]Hopfield網(wǎng)絡(luò)[3]Boltzmann機[4]SOFM網(wǎng)絡(luò)[5]以及ART網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)[6],算法流程圖如圖1所示[7]。
1.2 卷積神經(jīng)網(wǎng)絡(luò)框架的架構(gòu)
Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫[8],意為快速特征嵌入的卷積結(jié)構(gòu),包含最先進的深度學(xué)習(xí)算法以及一系列的參考模型,圖2表示的是卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。Caffe深度學(xué)習(xí)框架主要依賴CUDA,IntelMKL,OpenCV,glog軟件以及caffe文件。本文使用的各個軟件版本說明,如表1所示。
Caffe深度學(xué)習(xí)框架提供了多個經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),利用隱含層的卷積層和池采樣層是實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)特征提取功能,卷積神經(jīng)網(wǎng)絡(luò)模型通過采取梯度下降法最小化損失函數(shù)對網(wǎng)絡(luò)中的權(quán)重參數(shù)逐層反向調(diào)節(jié),通過頻繁的迭代訓(xùn)練來提高網(wǎng)絡(luò)的精度。卷積神經(jīng)網(wǎng)絡(luò)使用權(quán)值共享,這一結(jié)構(gòu)類似于生物神經(jīng)網(wǎng)絡(luò),從而使網(wǎng)絡(luò)的復(fù)雜程度明顯降低,并且權(quán)值的數(shù)量也有大幅度的減少,本文使用這些模型直接進行訓(xùn)練,和傳統(tǒng)的圖像分類算法對比,性能有很大的提升,框架系統(tǒng)訓(xùn)練識別基本流程如圖3表示。
1.3 圖像分類特征提取
卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次相比傳統(tǒng)的淺層的神經(jīng)網(wǎng)絡(luò)來說,要復(fù)雜得多,每兩層的神經(jīng)元使用了局部連接的方式進行連接、神經(jīng)元共享連接權(quán)重以及時間或空間上使用降采樣充分利用數(shù)據(jù)本身的特征,因此決定了卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比維度大幅度降低,從而降低計算時間的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)主要分為兩個過程,分為卷積和采樣,分別的對上層數(shù)據(jù)進行提取抽象和對數(shù)據(jù)進行降維的作用。
本文以Caffe深度學(xué)習(xí)框架中的 CIFAR-10數(shù)據(jù)集的貓的網(wǎng)絡(luò)模型為例,如圖4所示,對卷積神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練。CIFAR-10是一個標準圖像圖像訓(xùn)練集,由六萬張圖像組成,共有10類(分為飛機,小汽車,鳥,貓,鹿,狗,青蛙,馬,船,卡車),每個圖片都是32×32像素的RGB彩色圖像。通過對數(shù)據(jù)進行提取和降維的方法來提取圖像數(shù)據(jù)的特征。
2 實驗分析
將貓的圖像訓(xùn)練集放在train的文件夾下,并統(tǒng)一修改成256×256像素大小,并對貓的圖像訓(xùn)練集進行標記,標簽為1,運行選擇cpu進行訓(xùn)練,每進行10次迭代進行一次測試,測試間隔為10次,初始化學(xué)習(xí)率為0.001,每20次迭代顯示一次信息,最大迭代次數(shù)為200次,網(wǎng)絡(luò)訓(xùn)練的動量為0.9,權(quán)重衰退為0.0005,5000次進行一次當(dāng)前狀態(tài)的記錄,記錄顯示如下圖5所示,預(yù)測的準度在98%以上。而相比傳統(tǒng)的圖像分類算法BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的收斂性慢,訓(xùn)練時間長的,網(wǎng)絡(luò)的學(xué)習(xí)和記憶具有不穩(wěn)定性,因而卷e神經(jīng)網(wǎng)絡(luò)框架在訓(xùn)練時間和預(yù)測準度上具有非常大的優(yōu)勢。
3 結(jié)束語
本文使用Caffe深度學(xué)習(xí)框架,以CIFAR-10數(shù)據(jù)集中貓的網(wǎng)絡(luò)模型為例,構(gòu)建小型貓的數(shù)據(jù)集,提取貓的圖象特征信息,最后和目標貓圖像進行預(yù)測,并和傳統(tǒng)的圖像分類算法進行對比,預(yù)測的準確率有很大的提升。
參考文獻:
[1] 楊錚, 吳陳沭, 劉云浩. 位置計算: 無線網(wǎng)絡(luò)定位與可定位性[M]. 北京: 清華大學(xué)出版社, 2014.
[2] 丁士折. 人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)[M]. 哈爾濱: 哈爾濱工程大學(xué)出版社, 2008.
[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.
[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.
[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.
[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);圖像分類;空間變換;可變形卷積
DOIDOI:10.11907/rjdk.171863
中圖分類號:TP317.4
文獻標識碼:A 文章編號:1672-7800(2017)006-0198-04
0 引言
圖像分類一直是計算機視覺領(lǐng)域的一個基礎(chǔ)而重要的核心問題,具有大量的實際應(yīng)用場景和案例。很多典型的計算機視覺問題(如物體檢測、圖像分割)都可以演化為圖像分類問題。圖像分類問題有很多難點需要解決,觀測角度、光照條件的變化、物體自身形變、部分遮擋、背景雜波影響、類內(nèi)差異等問題都會導(dǎo)致被觀測物體的計算機表示(二維或三維數(shù)值數(shù)組)發(fā)生劇烈變化。一個良好的圖像分類模型應(yīng)當(dāng)對上述情況(以及不同情況的組合)不敏感。使用深度學(xué)習(xí)尤其是深度卷積神經(jīng)網(wǎng)絡(luò),用大量圖像數(shù)據(jù)進行訓(xùn)練后可以處理十分復(fù)雜的分類問題。
卷積神經(jīng)網(wǎng)絡(luò)是為識別二維形狀而專門設(shè)計的一個多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、縮放、傾斜等擾動具有高度不變性,并且具有強大的特征學(xué)習(xí)與抽象表達能力,可以通過網(wǎng)絡(luò)訓(xùn)練獲得圖像特征,避免了復(fù)雜的特征提取與數(shù)據(jù)重建過程。通過網(wǎng)絡(luò)層的堆疊,集成了低、中、高層特征表示。AlexNet等網(wǎng)絡(luò)模型的出F,也推動了卷積網(wǎng)絡(luò)在海量圖像分類領(lǐng)域的蓬勃發(fā)展。
1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,其“局部感知”“權(quán)值共享”[1]等特性使之更類似于生物神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)模型復(fù)雜度大大降低,網(wǎng)絡(luò)訓(xùn)練更容易,多層的網(wǎng)絡(luò)結(jié)構(gòu)有更好的抽象表達能力,可以直接將圖像作為網(wǎng)絡(luò)輸入,通過網(wǎng)絡(luò)訓(xùn)練自動學(xué)習(xí)圖像特征,從而避免了復(fù)雜的特征提取過程。
Yann LeCun等[2]設(shè)計的LeNet-5是當(dāng)前廣泛使用的卷積網(wǎng)絡(luò)結(jié)構(gòu)原型,它包含了卷積層、下采樣層(池化層)、全連接層以及輸出層,構(gòu)成了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本組件,后續(xù)復(fù)雜的模型都離不開這些基本組件。LeNet-5對手寫數(shù)字識別率較高,但在大數(shù)據(jù)量、復(fù)雜的物體圖片分類方面不足,過擬合也導(dǎo)致其泛化能力較弱。網(wǎng)絡(luò)訓(xùn)練開銷大且受制于計算機性能。
2012年,在ILSVRC競賽中AlexNet模型[3]贏得冠軍,將錯誤率降低了10個百分點。擁有5層卷積結(jié)構(gòu)的AlexNet模型證明了卷積神經(jīng)網(wǎng)絡(luò)在復(fù)雜模型下的有效性,并將GPU訓(xùn)練引入研究領(lǐng)域,使得大數(shù)據(jù)訓(xùn)練時間縮短,具有里程碑意義。AlexNet還有如下創(chuàng)新點:①采用局部響應(yīng)歸一化算法(Local Response Normalization,LRN),增強了模型的泛化能力,有效降低了分類錯誤率;②使用Dropout技術(shù),降低了神經(jīng)元復(fù)雜的互適應(yīng)關(guān)系,有效避免了過擬合;③為了獲得更快的收斂速度,AlexNet使用非線性激活函數(shù)ReLU(Rectified Linear Units)來代替?zhèn)鹘y(tǒng)的Sigmoid激活函數(shù)。
Karen等[4]在AlexNet的基礎(chǔ)上使用更小尺寸的卷積核級聯(lián)替代大卷積核,提出了VGG網(wǎng)絡(luò)。雖然VGG網(wǎng)絡(luò)層數(shù)和參數(shù)都比AlexNet多,但得益于更深的網(wǎng)絡(luò)和較小的卷積核尺寸,使之具有隱式規(guī)則作用,只需很少的迭代次數(shù)就能達到收斂目的。
復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)能表達更高維的抽象特征。然而,隨著網(wǎng)絡(luò)層數(shù)增加,參數(shù)量也急劇增加,導(dǎo)致過擬合及計算量大增,解決這兩個缺陷的根本辦法是將全連接甚至一般的卷積轉(zhuǎn)化為稀疏連接。為此,Google團隊提出了Inception結(jié)構(gòu)[5],以將稀疏矩陣聚類為較為密集的子矩陣來提高計算性能。以Inception結(jié)構(gòu)構(gòu)造的22層網(wǎng)絡(luò)GoogLeNet,用均值池化代替后端的全連接層,使得參數(shù)量只有7M,極大增強了泛化能力,并增加了兩個輔助的Softmax用于向前傳導(dǎo)梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC競賽中以Top-5錯誤率僅6.66%的成績摘得桂冠。
網(wǎng)絡(luò)層數(shù)的增加并非永無止境。隨著網(wǎng)絡(luò)層數(shù)的增加,將導(dǎo)致訓(xùn)練誤差增大等所謂退化問題。為此,微軟提出了一種深度殘差學(xué)習(xí)框架[6],利用多層網(wǎng)絡(luò)擬合一個殘差映射,成功構(gòu)造出152層的ResNet-152,并在2015年的ILSVRC分類問題競賽中取得Top-5錯誤率僅5.71%的成績。隨后,對現(xiàn)有的瓶頸式殘差結(jié)構(gòu)進行改進,提出了一種直通結(jié)構(gòu)[7],并基于此搭建出驚人的1001層網(wǎng)絡(luò),在CIFAR-10分類錯誤率僅4.92%。至此,卷積神經(jīng)網(wǎng)絡(luò)在越來越“深”的道路上一往直前。
2 可變形的卷積神經(jīng)網(wǎng)絡(luò)
2.1 空間變換網(wǎng)絡(luò)
空間變換網(wǎng)絡(luò)(Spatial Transformer Network,STN)[8]主要由定位網(wǎng)絡(luò)(Localisation net)、網(wǎng)格生成器(Grid generator)和可微圖像采樣(Differentiable Image Sampling)3部分構(gòu)成,如圖1所示。
定位網(wǎng)絡(luò)將輸入的特征圖U放入一個子網(wǎng)絡(luò)(由卷積、全連接等構(gòu)成的若干層子網(wǎng)絡(luò)),生成空間變換參數(shù)θ。θ的形式可以多樣,如需要實現(xiàn)2D仿射變換,那么θ就是一個2×3的向量。
2.3 本文模型
本文以自建的3層卷積網(wǎng)絡(luò)C3K5(如圖6所示)和VGG-16作為基準網(wǎng)絡(luò),分別引入空間變換網(wǎng)絡(luò)、可變形卷積和可變形池化,構(gòu)造出8個卷積神經(jīng)網(wǎng)絡(luò),用以驗證可變形模塊對淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)的影響,如表1所示。
圖6中C3K5網(wǎng)絡(luò)模型包含3個帶有ReLU層、LRN層和池化層的卷積模塊,卷積層采用步長為1的5×5卷積核,輸出保持原大小,池化層采用步長為2核為2×2的最大值池化,即每經(jīng)過一個卷積模塊,特征圖縮小為原來的一半。
3 實驗與分析
3.1 實驗設(shè)置
本文實驗環(huán)境:CPU為Intel i5-7400,8G內(nèi)存,顯卡為GTX1060,采用Cuda8+CuDNN6.0加速。
實驗數(shù)據(jù)集包括公共圖像數(shù)據(jù)集mnist、cifar-10、cifar-100和自建圖像數(shù)據(jù)集pen-7。公共數(shù)據(jù)集分別有50 000張訓(xùn)練樣本圖像和10 000張測試樣本圖像。自建數(shù)據(jù)集pen-7為京東商城的七類筆圖像庫,每類有600張圖片,圖像分辨率為200×200,總計訓(xùn)練樣本數(shù)3 360,測試樣本數(shù)840, 圖7為其中的14個樣本。
3.2 結(jié)果與分析
分別將表1中的10個卷積網(wǎng)絡(luò)應(yīng)用到mnist、cifar-10、cifar-100和pen-7四個數(shù)據(jù)集進行訓(xùn)練,batch-size設(shè)置100,即每次傳入100張圖片進行訓(xùn)練,每訓(xùn)練100次測試一次(記為一次迭代),總共迭代100次,取最后10次迭代的準確率計算平均值,得各網(wǎng)絡(luò)應(yīng)用在不同數(shù)據(jù)集的分類結(jié)果,如表2所示。
實驗結(jié)果表明,在卷積網(wǎng)絡(luò)中引入空間變換網(wǎng)絡(luò)、用可變形的卷積層和可變形的池化層替換傳統(tǒng)的卷積層和池化層,不管是在淺層網(wǎng)絡(luò)還是在深層網(wǎng)絡(luò),都能獲得更高的分類準確率,這驗證了空間變換網(wǎng)絡(luò)和可變形卷積(池化)結(jié)構(gòu),豐富了卷積神經(jīng)網(wǎng)絡(luò)的空間特征表達能力,提升了卷積網(wǎng)絡(luò)對樣本的空間多樣性變化的魯棒性。包含3種模塊的網(wǎng)絡(luò)獲得了最高的分類精度,使空間變換網(wǎng)絡(luò)、可變形卷積層和可變形池化層在更多應(yīng)用場景中并駕齊驅(qū)成為可能。
4 結(jié)語
通過在現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)中引入空間變換網(wǎng)絡(luò)、可變形的卷積層和可變形的池化層,使得卷積網(wǎng)絡(luò)在mnist、cifar-10、cifar-100及自建的pen-7數(shù)據(jù)集中獲得了更高的分類精度,包含3種模塊的網(wǎng)絡(luò)獲得了最高分類精度,證明了空間變換網(wǎng)絡(luò)、可變形的卷積層和可變形池化層都能豐富網(wǎng)絡(luò)的空間特征表達能力,協(xié)同應(yīng)用于圖像分類工作,這為后續(xù)研究打下了堅實的基礎(chǔ)。
參考文獻:
[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.
[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.
[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.
[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.
[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.
[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.
[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.
[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.
黑匣認為,復(fù)雜神經(jīng)網(wǎng)絡(luò)、LSTMs(長短期記憶網(wǎng)絡(luò))、注意力模型(Attention Models)等十大趨勢將塑造人工智能未來的技術(shù)格局。
上述判斷來自NIPS(神經(jīng)信息處理系統(tǒng)) 2015大會。NIPS始于1987年,是人工智能領(lǐng)域兩大重要學(xué)習(xí)會議之一,由于AI的爆炸式發(fā)展,近年來逐漸成為許多硅谷公司必須參加的年度會議。在蒙特利爾召開的NIPS 2015吸引了眾多AI學(xué)界與業(yè)界的頂級專家,與會人數(shù)接近4000。大會總共收錄了403篇論文,其中深度學(xué)習(xí)課題約占11%。來自Dropbox的高級軟件工程師Brad Neuberg分享了他所注意到的十大技術(shù)趨勢,黑匣將對每種趨勢做了詳細分析。
1、神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來越復(fù)雜
感知和翻譯等大多數(shù)神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來越復(fù)雜,遠非此前簡單的前饋神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)所能比。特別需要注意的是,神經(jīng)網(wǎng)絡(luò)正與不同的技術(shù)(如LSTMs、卷積、自定義目標函數(shù)等)相混合。
神經(jīng)網(wǎng)絡(luò)是多數(shù)深度學(xué)習(xí)項目的根基。深度學(xué)習(xí)基于人腦結(jié)構(gòu),一層層互相連接的人工模擬神經(jīng)元模仿大腦的行為,處理視覺和語言等復(fù)雜問題。這些人工神經(jīng)網(wǎng)絡(luò)可以收集信息,也可以對其做出反應(yīng)。它們能對事物的外形和聲音做出解釋,還可以自行學(xué)習(xí)與工作。未來的人工智能,最熱門的技術(shù)趨勢是什么?
(人工模擬神經(jīng)元試圖模仿大腦行為|圖片來源:Frontiers)
但這一切都需要極高的計算能力。早在80年代初期,Geoffrey Hinton和他的同事們就開始研究深度學(xué)習(xí)。然而彼時電腦還不夠快,不足以處理有關(guān)神經(jīng)網(wǎng)絡(luò)的這些龐大的數(shù)據(jù)。當(dāng)時AI研究的普遍方向也與他們相反,人們都在尋找捷徑,直接模擬出行為而不是模仿大腦的運作。
隨著計算能力的提升和算法的改進,今天,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)已經(jīng)成為人工智能領(lǐng)域最具吸引力的流派。這些神經(jīng)網(wǎng)絡(luò)還在變得更復(fù)雜,當(dāng)年“谷歌大腦”團隊最開始嘗試“無監(jiān)督學(xué)習(xí)”時,就動用了1.6萬多臺微處理器,創(chuàng)建了一個有數(shù)十億連接的神經(jīng)網(wǎng)絡(luò),在一項實驗中觀看了千萬數(shù)量級的YouTube圖像。
2、酷的人都在用LSTMs
當(dāng)你閱讀本文時,你是在理解前面詞語的基礎(chǔ)上來理解每個詞語的。你的思想具有連續(xù)性,你不會丟棄已知信息而從頭開始思考。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的一大缺陷便是無法做到這一點,而遞歸神經(jīng)網(wǎng)絡(luò)(RNN)能夠解決這一問題。
RNN擁有循環(huán)結(jié)構(gòu),可以持續(xù)保存信息。過去幾年里,RNN在語音識別和翻譯等許多問題上取得了難以置信的成功,而成功的關(guān)鍵在于一種特殊的RNN——長短期記憶網(wǎng)絡(luò)(LSTMs)。
普通的RNN可以學(xué)會預(yù)測“the clouds are in the sky”中最后一個單詞,但難以學(xué)會預(yù)測“I grew up in France…I speak fluent French。”中最后一個詞。相關(guān)信息(clouds、France)和預(yù)測位置(sky、French)的間隔越大,神經(jīng)網(wǎng)絡(luò)就越加難以學(xué)習(xí)連接信息。這被稱為是“長期依賴關(guān)系”問題。未來的人工智能,最熱門的技術(shù)趨勢是什么?
(長期依賴問題|圖片來源:CSDN)
LSTMs被明確設(shè)計成能克服之一問題。LSTMs有四層神經(jīng)網(wǎng)絡(luò)層,它們以特殊的方式相互作用。這使得“能記住信息很長一段時間”可以被視作LSTMs的“固有行為”,它們不需要額外學(xué)習(xí)這一點。對于大多數(shù)任務(wù),LSTMs已經(jīng)取得了非常好的效果。
3、是時候注意“注意力模型(attention models)了
LSTMs是人們使用RNNs的一個飛躍。還有其他飛躍嗎?研究者共同的想法是:“還有注意力(attention)!”
“注意力”是指神經(jīng)網(wǎng)絡(luò)在執(zhí)行任務(wù)時知道把焦點放在何處。我們可以讓神經(jīng)網(wǎng)絡(luò)在每一步都從更大的信息集中挑選信息作為輸入。
例如,當(dāng)神經(jīng)網(wǎng)絡(luò)為一張圖片生成標題時,它可以挑選圖像的關(guān)鍵部分作為輸入。未來的人工智能,最熱門的技術(shù)趨勢是什么?
(擁有“注意力”的RNN在圖像識別中的成功運用|圖片來源:Github)
4、神經(jīng)圖靈機依然有趣,但還無法勝任實際工作
當(dāng)你翻譯一句話時,并不會逐個詞匯進行,而是會從句子的整體結(jié)構(gòu)出發(fā)。機器難以做到這一點,這一挑戰(zhàn)被稱為“強耦合輸出的整體估計”。NIPS上很多研究者展示了對跨時間、空間進行耦合輸出的研究。
神經(jīng)圖靈機(Neural Turing Machine)就是研究者們在硅片中重現(xiàn)人類大腦短期記憶的嘗試。它的背后是一種特殊類型的神經(jīng)網(wǎng)絡(luò),它們可以適應(yīng)與外部存儲器共同工作,這使得神經(jīng)網(wǎng)絡(luò)可以存儲記憶,還能在此后檢索記憶并執(zhí)行一些有邏輯性的任務(wù)。未來的人工智能,最熱門的技術(shù)趨勢是什么?
(模仿人類短期工作記憶的神經(jīng)圖靈機|圖片來源:arXiv)
2014年10月,Google DeepMind公布了一臺原型電腦,它可以模仿一些人類大腦短期工作記憶的特性。但直到NIPS2015,所有的神經(jīng)圖靈機都過于復(fù)雜,并且只能解決一些“小玩具”問題。在未來它們或?qū)⒌玫綐O大改進。
5、深度學(xué)習(xí)讓計算機視覺和自然語言處理不再是孤島
卷積神經(jīng)網(wǎng)絡(luò)(CNN)最早出現(xiàn)在計算機視覺中,但現(xiàn)在許多自然語言處理(NLP)系統(tǒng)也會使用。LSTMs與遞歸神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)最早出現(xiàn)在NLP中,但現(xiàn)在也被納入計算機視覺神經(jīng)網(wǎng)絡(luò)。
此外,計算機視覺與NLP的交匯仍然擁有無限前景。想象一下程序為美劇自動嵌入中文字幕的場景吧。
6、符號微分式越來越重要
隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)及其目標函數(shù)變得日益復(fù)雜和自定義,手動推導(dǎo)出“反向傳播”(back propagation)的梯度(gradients)也變得更加苦難而且容易出錯。谷歌的TensorFlow等最新的工具包已經(jīng)可以超負荷試驗符號微分式,能夠自動計算出正確的微分,以確保訓(xùn)練時誤差梯度可被反向傳播。
7、神經(jīng)網(wǎng)絡(luò)模型壓縮的驚人成果
多個團隊以不同方法大幅壓縮了訓(xùn)練一個良好模型所需的素材體量,這些方法包括二值化、固定浮點數(shù)、迭代修剪和精細調(diào)優(yōu)步驟等。
這些技術(shù)潛在的應(yīng)用前景廣闊,可能將會適應(yīng)在移動設(shè)備上進行復(fù)雜模型的訓(xùn)練。例如,不需要延遲就可以得到語音識別結(jié)果。此外,如果運算所需要的空間和時間極大降低,我們就可以極高幀率(如30 FPS)查詢一個模型,這樣,在移動設(shè)備上也可以運用復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,從而近乎實時地完成計算機視覺任務(wù)。
8、深度學(xué)習(xí)和強化學(xué)習(xí)繼續(xù)交匯
雖然NIPS 2015上沒有什么強化學(xué)習(xí)(reinforcement learning)的重要成果,但“深度強化學(xué)習(xí)”研討會還是展現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)相結(jié)合的前景。
在“端對端”(end-to-end)機器人等領(lǐng)域出現(xiàn)了令人激動的進展,現(xiàn)在機器人已經(jīng)可以一起運用深度和強化學(xué)習(xí),從而將原始感官數(shù)據(jù)直接轉(zhuǎn)化為實際動作驅(qū)動。我們正在超越“分類”等簡單工作,嘗試將“計劃”與“行動”納入方程。還有大量工作需要完成,但早期的工作已經(jīng)使人感到興奮。
9、難道你還沒有使用批標準化?
批標準化(batch normalization)現(xiàn)在被視作評價一個神經(jīng)網(wǎng)絡(luò)工具包的部分標準,在NIPS 2015上被不斷提及。
關(guān)鍵詞:人工智能 機器學(xué)習(xí) 機器人情感獲得 發(fā)展綜述
中圖分類號:TP18 文獻標識碼:A 文章編號:1003-9082 (2017) 04-0234-01
引言
人類自從工業(yè)革命結(jié)束之后,就已然開始了對人工智能的探索,究其本質(zhì),實際上就是對人的思維進行模仿,以此代替人類工作。人工智能的探索最早可以追溯到圖靈時期,那時圖靈就希望未來的智能系統(tǒng)能夠像人一樣思考。在20世紀五十年代,人工智能被首次確定為一個新興的學(xué)科,并吸引了大批的學(xué)者投入到該領(lǐng)域的研究當(dāng)中。經(jīng)過長時間的探索和嘗試,人工智能的許多重要基本理論已經(jīng)形成,如模式識別、特征表示與推理、機器學(xué)習(xí)的相關(guān)理論和算法等等。進入二十一世紀以來,隨著深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,人工智能再一次成為研究熱點。人工智能技術(shù)與基因過程、納米科學(xué)并列為二十一世紀的三大尖端技術(shù), 并且人工智能涉及的學(xué)科多,社會應(yīng)用廣泛,對其原理和本質(zhì)的理解也更為復(fù)雜。 一、人工智能的發(fā)展歷程
回顧人工智能的產(chǎn)生與發(fā)展過程 ,可以將其分為:初期形成階段,綜合發(fā)展階段和應(yīng)用階段。
1.初期形成階段
人工智能這一思想最早的提出是基于對人腦神經(jīng)元模型的抽象。其早期工作被認為是由美國的神經(jīng)學(xué)家和控制論學(xué)者 Warren McCulloch與Walter Pitts共同完成的。在1951年,兩名普林斯頓大學(xué)的研究生制造出了第一臺人工神經(jīng)元計算機。而其真正作為一個新的概念被提出是在1956年舉行的達茅斯會議上。由麥卡錫提議并正式采用了“人工智能”(Artificial Intelligence)礱枋穌庖謊芯咳綰斡沒器來模擬人類智能的新興學(xué)科。1969年的國際人工智能聯(lián)合會議標志著人工智能得到了國際的認可。至此,人工智能這一概念初步形成,也逐漸吸引了從事數(shù)學(xué)、生物、計算機、神經(jīng)科學(xué)等相關(guān)學(xué)科的學(xué)者參與該領(lǐng)域的研究。
2.綜合發(fā)展階段
1.7 7年, 費根鮑姆在第五屆國際人工智能聯(lián)合會議上正式提出了“知識工程”這一概念。而后其對應(yīng)的專家系統(tǒng)得到發(fā)展,許多智能系統(tǒng)紛紛被推出,并應(yīng)用到了人類生活的方方面面。20世紀80年代以來,專家系統(tǒng)逐步向多技術(shù)、多方法的綜合集成與多學(xué)科、多領(lǐng)域的綜合應(yīng)用型發(fā)展。大型專家系統(tǒng)開發(fā)采用了多種人工智能語言、多種知識表示方法、多種推理機制和多種控制策略相結(jié)合的方式, 并開始運用各種專家系統(tǒng)外殼、專家系統(tǒng)開發(fā)工具和專家系統(tǒng)開發(fā)環(huán)境等等。在專家系統(tǒng)的發(fā)展過程中,人工智能得到了較為系統(tǒng)和全面的綜合發(fā)展,并能夠在一些具體的任務(wù)中接近甚至超過人類專家的水平。
3.應(yīng)用階段
進入二十一世紀以后,由于深度人工神經(jīng)網(wǎng)絡(luò)的提出,并在圖像分類與識別的任務(wù)上遠遠超過了傳統(tǒng)的方法,人工智能掀起了前所未有的。2006年,由加拿大多倫多大學(xué)的Geoffery Hinton及其學(xué)生在《Science》雜志上發(fā)表文章,其中首次提到了深度學(xué)習(xí)這一思想,實現(xiàn)對數(shù)據(jù)的分級表達,降低了經(jīng)典神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。并隨后提出了如深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN),以及區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-based Convolutional Neural Network, R-CNN),等等新的網(wǎng)絡(luò)訓(xùn)練結(jié)構(gòu),使得訓(xùn)練和測試的效率得到大幅提升,識別準確率也顯著提高。
二、人工智能核心技術(shù)
人工智能由于其涉及的領(lǐng)域較多,內(nèi)容復(fù)雜,因此在不同的應(yīng)用場景涉及到許多核心技術(shù),這其中如專家系統(tǒng)、機器學(xué)習(xí)、模式識別、人工神經(jīng)網(wǎng)絡(luò)等是最重要也是發(fā)展較為完善的幾個核心技術(shù)。
1.專家系統(tǒng)
專家系統(tǒng)是一類具有專門知識和經(jīng)驗的計算機智能程序系統(tǒng),通過對人類專家的問題求解能力建模,采用人工智能中的知識表示和知識推理技術(shù)來模擬通常由專家才能解決的復(fù)雜問題,達到具有與專家同等解決問題能力的水平。對專家系統(tǒng)的研究,是人工智能中開展得較為全面、系統(tǒng)且已經(jīng)取得廣泛應(yīng)用的技術(shù)。許多成熟而先進的專家系統(tǒng)已經(jīng)被應(yīng)用在如醫(yī)療診斷、地質(zhì)勘測、文化教育等方面。
2.機器學(xué)習(xí)
機器學(xué)習(xí)是一個讓計算機在非精確編程下進行活動的科學(xué),也就是機器自己獲取知識。起初,機器學(xué)習(xí)被大量應(yīng)用在圖像識別等學(xué)習(xí)任務(wù)中,后來,機器學(xué)習(xí)不再限于識別字符、圖像中的某個目標,而是將其應(yīng)用到機器人、基因數(shù)據(jù)的分析甚至是金融市場的預(yù)測中。在機器學(xué)習(xí)的發(fā)展過程中,先后誕生了如凸優(yōu)化、核方法、支持向量機、Boosting算法等等一系列經(jīng)典的機器學(xué)習(xí)方法和理論。機器學(xué)習(xí)也是人工智能研究中最為重要的核心方向。
3.模式識別
模式識別是研究如何使機器具有感知能力 ,主要研究圖像和語音等的識別。其經(jīng)典算法包括如k-means,主成分分析(PCA),貝葉斯分類器等等。在日常生活各方面以及軍事上都有廣大的用途。近年來迅速發(fā)展起來應(yīng)用模糊數(shù)學(xué)模式、人工神經(jīng)網(wǎng)絡(luò)模式的方法逐漸取代傳統(tǒng)的基于統(tǒng)計學(xué)習(xí)的識別方法。圖形識別方面例如識別各種印刷體和某些手寫體文字,識別指紋、癌細胞等技術(shù)已經(jīng)進入實際應(yīng)用。語音識別主要研究各種語音信號的分類,和自然語言理解等等。模式識別技術(shù)是人工智能的一大應(yīng)用領(lǐng)域,其非常熱門的如人臉識別、手勢識別等等對人們的生活有著十分直接的影響。
4.人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是在研究人腦的結(jié)構(gòu)中得到啟發(fā), 試圖用大量的處理單元模仿人腦神經(jīng)系統(tǒng)工程結(jié)構(gòu)和工作機理。而近年來發(fā)展的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNNs)具有更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),與經(jīng)典的機器學(xué)習(xí)算法相比在大數(shù)據(jù)的訓(xùn)練下有著更強的特征學(xué)習(xí)和表達能力。含有多個隱含層的神經(jīng)網(wǎng)絡(luò)能夠?qū)斎朐紨?shù)據(jù)有更抽象喝更本質(zhì)的表述,從而有利于解決特征可視化以及分類問題。另外,通過實現(xiàn)“逐層初始化”這一方法,實現(xiàn)對輸入數(shù)據(jù)的分級表達,可以有效降低神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。目前的神經(jīng)網(wǎng)絡(luò)在圖像識別任務(wù)中取得了十分明顯的進展,基于CNN的圖像識別技術(shù)也一直是學(xué)術(shù)界與工業(yè)界一致追捧的熱點。
三、機器人情感獲得
1.智能C器人現(xiàn)狀
目前智能機器人的研究還主要基于智能控制技術(shù),通過預(yù)先定義好的機器人行動規(guī)則,編程實現(xiàn)復(fù)雜的自動控制,完成機器人的移動過程。而人類進行動作、行為的學(xué)習(xí)主要是通過模仿及與環(huán)境的交互。從這個意義上說,目前智能機器人還不具有類腦的多模態(tài)感知及基于感知信息的類腦自主決策能力。在運動機制方面,目前幾乎所有的智能機器人都不具備類人的外周神經(jīng)系統(tǒng),其靈活性和自適應(yīng)性與人類運動系統(tǒng)還具有較大差距。
2.機器人情感獲得的可能性
人腦是在與外界永不停息的交互中,在高度發(fā)達的神經(jīng)系統(tǒng)的處理下獲得情感。智能機器人在不斷的機器學(xué)習(xí)和大數(shù)據(jù)處理中,中樞處理系統(tǒng)不斷地自我更新、升級,便具備了獲得情感的可能性及幾率。不斷地更新、升級的過程類似于生物的進化歷程,也就是說,智能機器人有充分的可能性獲得與人類同等豐富的情感世界。
3.機器人獲得情感的利弊
機器人獲得情感在理論可行的情況下,伴之而來的利弊則眾說紛紜。一方面,擁有豐富情感世界的機器人可以帶來更多人性化的服務(wù),人機合作也可進行地更加深入,可以為人類帶來更為逼真的體驗和享受。人類或可與智能機器人攜手共創(chuàng)一個和諧世界。但是另一方面,在機器人獲得情感時,機器人是否能徹底貫徹人類命令及協(xié)議的擔(dān)憂也迎面而來。
4.規(guī)避機器人情感獲得的風(fēng)險
規(guī)避智能機器人獲得情感的風(fēng)險應(yīng)預(yù)備強制措施。首先要設(shè)計完備的智能機器人情感協(xié)議,將威脅泯滅于未然。其次,應(yīng)控制智能機器人的能源獲得,以限制其自主活動的能力,杜絕其建立獨立體系的可能。最后,要掌控核心武器,必要時強行停止運行、回收、甚至銷毀智能機器人。
三、總結(jié)
本文梳理了人工智能的發(fā)展歷程與核心技術(shù),可以毋庸置疑地說,人工智能具有極其廣闊的應(yīng)用前景,但也伴隨著極大的風(fēng)險。回顧其發(fā)展歷程,我們有理由充分相信,在未來人工智能的技術(shù)會不斷完善,難題會被攻克。作為世界上最熱門的領(lǐng)域之一,在合理有效規(guī)避其風(fēng)險的同時,獲得情感的智能機器人會造福人類,并極大地幫助人們的社會生活。
參考文獻
[1]韓曄彤.人工智能技術(shù)發(fā)展及應(yīng)用研究綜述[J].電子制作,2016,(12):95.
[2]曾毅,劉成林,譚鐵牛.類腦智能研究的回顧與展望[J].計算機學(xué)報,2016,(01):212-222.
[3]張越.人工智能綜述:讓機器像人類一樣思考
>> 用于腦運作分析的前向網(wǎng)絡(luò)樣本重組樹生成算法研究 基于三角構(gòu)成規(guī)則的加權(quán)有向網(wǎng)絡(luò)拓撲生成算法 適用于網(wǎng)絡(luò)漸進傳輸?shù)亩喾直媛是€生成算法 全排列生成算法比較分析 KenKen問題的生成算法研究 曲線生成算法的文獻綜述 基于列生成算法的集裝箱班輪運輸網(wǎng)絡(luò)優(yōu)化 基于全卷積神經(jīng)網(wǎng)絡(luò)的圖像縮略圖生成算法 傳感器網(wǎng)絡(luò)中一種基于編碼的MAC生成算法 數(shù)據(jù)庫關(guān)鍵詞檢索中候選元組集連接樹生成算法的研究 基于分類隨機算法的試卷生成算法研究 分析基于列生成算法的動車組檢修計劃優(yōu)化 AOS自相似業(yè)務(wù)流等時幀生成算法的Matlab仿真分析 關(guān)于傳統(tǒng)空間緩沖區(qū)生成算法的分析 基于Bresenham的直線快速生成算法 題庫系統(tǒng)中試卷生成算法的改進 一種可用于腦神經(jīng)網(wǎng)絡(luò)分析的有向網(wǎng)絡(luò)分解算法 形式概念演化生成算法 MPI通信代碼自動生成算法 一種啟發(fā)式雙代號網(wǎng)絡(luò)圖自動生成算法 常見問題解答 當(dāng)前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)
[30]謝勤.WAP算法連續(xù)化及其應(yīng)用[C].畢業(yè)論文,2004.
[31]謝勤.一種可用于腦神經(jīng)網(wǎng)絡(luò)分析的有向網(wǎng)絡(luò)分解算法[J].數(shù)字化用戶,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)
[32]謝勤.一種可用于腦神經(jīng)網(wǎng)絡(luò)分析的有向網(wǎng)絡(luò)分解算法[C].第八屆海內(nèi)外華人神經(jīng)科學(xué)家研討會論文集.北京:科學(xué)出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)
[33]謝勤.用于腦運作分析的前向網(wǎng)絡(luò)樣本重組樹生成算法研究[C].電子技術(shù)與軟件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)
(通訊作者:謝勤)
作者簡介
謝勤(1982-),男,A南理工大學(xué)碩士,中國神經(jīng)科學(xué)學(xué)會會員,工程師,近年在亞組委信息技術(shù)部完成核心信息系統(tǒng)――計時記分和成績處理系統(tǒng)項目實施管理方面的工作,其中計時記分系統(tǒng)投資一億。主要研究方向為計算機科學(xué)與工程、人工智能、神經(jīng)生物學(xué)。
作者單位
1.廣州市科技和信息化局 廣東省廣州市 510000
2.第16屆亞運會組委會信息技術(shù)部 廣東省廣州市 510000
3.廣州生產(chǎn)力促進中心 廣東省廣州市 510000
4.廣州市科學(xué)技術(shù)信息研究所 廣東省廣州市 510000
5.廣州市科技創(chuàng)新委員會 廣東省廣州市 510000