前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)的步驟范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:
手勢識(shí)別;位運(yùn)算;卷積神經(jīng)網(wǎng)絡(luò);復(fù)雜環(huán)境;膚色似然
中圖分類號(hào): TP391.413 文獻(xiàn)標(biāo)志碼:A
0引言
現(xiàn)行的手勢識(shí)別方法的主要步驟是提取精確的手勢區(qū)域,然后作形狀或者輪廓識(shí)別。提取手勢區(qū)域的方法有依賴于測距設(shè)備的方法,比如Kinect[1-2]、雙目設(shè)備[3],也有依賴于單目視覺的方法[4]。前者的主要原理是人機(jī)交互中手的位置距離傳感器應(yīng)該在一定的區(qū)間內(nèi),之后進(jìn)行距離閾值分割。而基于視覺的方法主要是確定合理的膚色閾值,進(jìn)行膚色分割和去噪,確定手勢區(qū)域或者輪廓。
這些方法雖然依賴的特征不同,但是在整體處理步驟上比較相似,都需要首先對(duì)手勢區(qū)域進(jìn)行精確的分割。方法面臨的挑戰(zhàn)主要集中在復(fù)雜環(huán)境下的手勢分割。如果希望算法在距離、光照可變的環(huán)境下表現(xiàn)出良好的魯棒性,一般會(huì)將很多非手勢的區(qū)域也識(shí)別為手勢,這將增加手勢分割的難度,在復(fù)雜背景下,這一問題會(huì)更加明顯。在背景環(huán)境復(fù)雜時(shí)如果想降低手勢分割的難度,一般需要對(duì)輸入的圖像特征進(jìn)行更嚴(yán)格的提取,這同時(shí)也降低了模型的魯棒性,在光照、距離等條件變化時(shí),會(huì)出現(xiàn)丟失手勢的問題。
兩類問題相互制約,針對(duì)這一情況,研究者們把精力主要放在如何更加精準(zhǔn)地提取特征上面。用作手勢分割的特征主要集中在膚色[4]和距離[1,3],有的學(xué)者采取了將輪廓信息結(jié)合先驗(yàn)形狀來進(jìn)行更加準(zhǔn)確的分割方式來處理這一問題[5],此類方法被廣泛地用于邊緣提取領(lǐng)域,在針對(duì)小規(guī)模噪聲區(qū)域以及手勢類別較少的情況時(shí)能獲取不錯(cuò)的效果。主要問題是對(duì)于多個(gè)先驗(yàn)形狀的表達(dá)沒有特別理想的方案,在形狀增多之后,形狀項(xiàng)的作用明顯下降,這與形狀之間本身的沖突有關(guān)。更重要的一點(diǎn)是圖像分割方法一般耗時(shí)都在數(shù)秒甚至數(shù)十秒,時(shí)間復(fù)雜度上無法滿足手勢識(shí)別的需要。因?yàn)槭謩莘指畹倪\(yùn)用場景多為動(dòng)態(tài)場景,所以運(yùn)動(dòng)目標(biāo)檢測的方法也經(jīng)常用來輔助手勢分割。
現(xiàn)行手勢分割方法中最常用的是按照提取膚色特征、二值化、形態(tài)學(xué)濾波、運(yùn)動(dòng)目標(biāo)特征或者距離特征協(xié)助檢測這個(gè)過程處理[3-4]。有時(shí)還需要做人臉檢測,排除人臉區(qū)域的干擾。融合了多種特征的方法在光照變化和背景擁有類似膚色的物體時(shí)仍然會(huì)出現(xiàn)不能有效分割的情形。
在手勢識(shí)別方面,Dardas等[6]提出了一種基于特征包的手勢識(shí)別方法,在識(shí)別率和計(jì)算效率上都取得了較好的結(jié)果。對(duì)于良好的手勢輪廓,Belongie等[7]提出的形狀上下文能夠得到高準(zhǔn)確率和對(duì)非剛性畸變魯棒的結(jié)果。矩特征,指尖等手勢的幾何特征[1]也經(jīng)常被用作為手勢識(shí)別的特征。卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)獲取特征,在處理靜態(tài)圖片時(shí)表現(xiàn)出了非常高的準(zhǔn)確率,同時(shí)對(duì)噪聲以及各種形變魯棒。
本文提出一種新的方法來解決手勢識(shí)別中魯棒性和算法復(fù)雜性之間的矛盾。該方法第1步使用二進(jìn)制運(yùn)算實(shí)現(xiàn)的支持向量機(jī)(Support Vector Machine, SVM)分類器并用位運(yùn)算代替滑動(dòng)窗口,快速提取出多個(gè)可能的備選區(qū)域。第2步使用卷積神經(jīng)網(wǎng)絡(luò)來完成手勢的再判定與識(shí)別工作。文中算法的實(shí)現(xiàn)方式非常關(guān)鍵,直接關(guān)系模型的運(yùn)算效率。第1步中使用的分類器為線性SVM模型,需要在支持64位整型機(jī)器的環(huán)境下使用二進(jìn)制運(yùn)算的方式實(shí)現(xiàn),在執(zhí)行效率上相對(duì)于基于滑動(dòng)窗口的算法有著100倍左右的提升[8]。第2步使用的分類器為卷積神經(jīng)網(wǎng)絡(luò),在實(shí)現(xiàn)上使用了統(tǒng)一計(jì)算設(shè)備架構(gòu)(Compute Unified Device Architecture, CUDA)進(jìn)行卷積運(yùn)算的加速,能獲得10倍左右的加速比[9]。
1手勢區(qū)域提取
本文手勢區(qū)域提取的方法不要求精確提取手勢輪廓或者鎖定備選框。該方法核心思想是用最短的時(shí)間排除掉絕大部分的搜索區(qū)域,剩下無法判斷的區(qū)域結(jié)合其他方法進(jìn)行處理。
方法本身并不依賴于特定特征,所有能夠用來排除大量備選區(qū)域的特征均可以使用,比如通過測距設(shè)備獲取的距離似然特征,使用視覺設(shè)備獲取的膚色似然特征。因?yàn)槟w色似然特征對(duì)于硬件的要求更低,本文選擇膚色似然特征進(jìn)行實(shí)驗(yàn)。
1.1獲取膚色特征
本文使用橢圓模型提取膚色似然區(qū)域[10-11]。首先將膚色變換到Y(jié)CbCr空間,橢圓膚色模型認(rèn)為膚色在Cr和Cb分量組成的空間里的分布集中在一個(gè)橢圓區(qū)域內(nèi)。該橢圓中心點(diǎn)坐標(biāo)為(155.6,103),長短軸比例為1∶1.6,旋轉(zhuǎn)角度為43°。式(1)描述了Cr和Cb組成的空間中的像素點(diǎn)距離橢圓中心的距離,也可以理解成是膚色的概率。該值恒大于0,最大值為255,標(biāo)準(zhǔn)差系數(shù)為σ2。可以通過調(diào)整標(biāo)準(zhǔn)差系數(shù)σ2來控制膚色判斷的嚴(yán)格程度,不同σ2下的分割效果如圖1所示。不同的標(biāo)準(zhǔn)差系數(shù)對(duì)于膚色區(qū)域的判斷影響十分明顯。當(dāng)σ2較小時(shí)提取區(qū)域判斷為膚色的區(qū)域很小,此時(shí)真實(shí)的手勢區(qū)域可能被誤檢成非手勢區(qū)域;當(dāng)σ2增大時(shí),膚色似然圖中判斷為膚色的區(qū)域會(huì)一直增加,此時(shí)膚色似然圖中被誤檢為膚色的區(qū)域也會(huì)增加。
光照變化和膚色的多樣性會(huì)影響膚色似然特征的計(jì)算。針對(duì)光照變化以及膚色變化的情況。有以下方法可以改善:
方法1使用對(duì)光照魯棒的特征,比如距離似然特征。
方法2使用較大的標(biāo)準(zhǔn)差系數(shù)σ2,后面提取區(qū)域的過程中使用較多的備選框以提高召回率。
方法3使用迭代的方法調(diào)整橢圓模型的中心坐標(biāo)和標(biāo)準(zhǔn)差系數(shù),方法3一般用于光照連續(xù)變化場景,比如視頻流的處理。
1.2膚色似然特征與手勢區(qū)域檢測
獲取膚色似然圖之后,下一步需要計(jì)算似然圖中的手勢區(qū)域。手勢區(qū)域和非手勢區(qū)域在8×8膚色似然圖下有著明顯的差別,如圖2所示。這一步的思路是使用滑動(dòng)窗口的方法,對(duì)膚色似然圖進(jìn)行遍歷。因?yàn)樽罱K需要處理是在遍歷的過程中將窗口中的膚色似然圖像作為手勢區(qū)域分類器的輸入,得到一個(gè)“窗口值”,用來確定是否為備選窗口。
考慮到手勢識(shí)別應(yīng)用場景多為人機(jī)交互,手勢的長寬比固定,不會(huì)被人為拉伸,所以選用“正方形”滑動(dòng)窗口;并且手勢區(qū)域在整幅圖像中所占比例會(huì)有所變化但變化幅度不大,所以不用設(shè)定太多不同尺度的滑動(dòng)窗口。在此處設(shè)定4個(gè)不同尺度的手勢區(qū)域48×48、64×64、80×80、96×96用以檢測不同大小的手勢。
為了保證滑動(dòng)窗口的大小始終為8×8,將膚色似然圖調(diào)整為不同的尺度,以尺度為360×240的膚色似然圖為例,當(dāng)手勢區(qū)域大小由48×48調(diào)整為8×8時(shí),膚色似然圖的長寬也對(duì)應(yīng)變化原圖的1/6,變?yōu)?0×40。大小為的64×64、80×80、96×96的手勢區(qū)域所對(duì)應(yīng)的調(diào)整后的膚色似然圖尺度分別為45×30、36×24、30×20,如圖2(d)所示。
在分類器的選擇上選用的是線性SVM分類器[12]。實(shí)驗(yàn)正樣例選取的均為人工標(biāo)記的手勢區(qū)域的膚色似然圖,在選取正樣例的過程中可以先使用少量樣本訓(xùn)練一個(gè)線性SVM分類器,然后使用該分類器進(jìn)行樣本初篩,之后再人工調(diào)整。負(fù)樣例是在正樣例以外的區(qū)域中隨機(jī)選取。正負(fù)樣本均需要進(jìn)行歸一化處理,處理成為8×8的區(qū)域?!按翱谥怠北硎維VM系數(shù)矩陣和8×8的內(nèi)積?!按翱谥怠钡挠?jì)算過程如式(2)所示:
s=〈w,x〉;w∈R8×8,x∈{0,1,…,255}8×8(2)
其中:w為權(quán)值矩陣;x為膚色似然圖的像素值,如圖2(c)所示;s為滑動(dòng)窗口的“窗口值”。
1.3BISL二進(jìn)制膚色似然特征
為了加速滑動(dòng)窗口的計(jì)算,本文借鑒了文獻(xiàn)[8]中一般物體識(shí)別時(shí)用到的方法,使用64位整型表示8×8的二進(jìn)制矩陣,并且使用一些列的位運(yùn)算操作來實(shí)現(xiàn)加速[13-14]。二進(jìn)制膚色似然特征(Binary Skin LikeHood, BISL)特征,是將膚色似然特征使用多個(gè)64位整型表示之后形成的特征。
1.3.1近似參數(shù)矩陣w
線性模型矩陣w∈R8×8可以使用文獻(xiàn)[13]中的算法1對(duì)其進(jìn)行近似可得w≈∑Nwj=1βjaj。其中:Nw代表基向量的個(gè)數(shù);aj∈{-1,1}8×8代表基向量; βj∈R代表相應(yīng)基向量的系數(shù)。
算法1使用二進(jìn)制方法近似w。
程序前
輸入:w,Nw。
輸出:{βj}Nwj=1,{aj}Nwj=1。
初始化殘差:ε=w
for j=1 to Nw do
aj=sign(ε)
βj=〈aj,ε〉/aj2(將殘差ε映射到aj上)
ε=ε-βjaj(更新殘差)
end for
程序后
1.3.2處理輸入矩陣x
本文截取x的高Nx位近似x(如圖3(a)),x可以由BISL特征表示成如下形式:
x=∑Nxk=128-kbk(5)
其中:x∈{0,1,…,255}8×8,bk∈{0,1}8×8。
算法2對(duì)區(qū)域獲取BISL特征。
參數(shù)含義:bx,y∈{0,1}8×8,rx,y∈{0,1}8,bx,y∈{0,1}。
程序前
輸入:膚色似然圖的二進(jìn)制值bW×H。
輸出:BISL特征組成的矩陣bW×H。
初始值:bW×H=0,rW×H=0
for each position(x,y) in scanline order do
rx,y=(rx-1,y
bx,y=(bx,y-1
end for
程序后
通常來說,獲取8×8的BISL特征需要遍歷64個(gè)位置。Cheng等[8]巧妙地利用了64位整型的特點(diǎn),在算法2中使用了“按位或”和“移位”操作避免了循環(huán)。首先BISL特征bx,y和它的最后一行rx,y分別使用一個(gè)INT64變量和一個(gè)byte變量存儲(chǔ)。然后相鄰的BISL特征有重復(fù)的部分,可以通過左移8位操作保留重復(fù)的部分并給不同的部分騰出空間,將騰出的這8位的空間與新的byte變量進(jìn)行“按位與”,就獲取了新的BISL特征。相鄰的byte變量的獲取過程與之類似。
綜合式(4)和(5)可以得到由BISL特征和分類器參數(shù)計(jì)算出窗口值:
s≈∑Nwj=1βj∑Nxk=1Cj,k(6)
其中Cj,k=28-k(2〈a+j,bk,l〉-bk,l)。
將窗口值topk的窗口作為候選窗口,進(jìn)行進(jìn)一步的識(shí)別。k的取值由實(shí)驗(yàn)環(huán)境確定,k越大,手勢檢測模型召回率越高,進(jìn)一步識(shí)別的時(shí)間復(fù)雜度也會(huì)增加。
2使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢識(shí)別
本章所提輸入是手勢檢測部分所得到的窗口值排名前k的候選窗口,這些窗口區(qū)域都是在上一步被判定為極有可能為手勢的區(qū)域,所以本章中需要使用更為復(fù)雜的特征和更強(qiáng)的分類模型來處理這個(gè)問題。卷積神經(jīng)網(wǎng)絡(luò)和一般的神經(jīng)網(wǎng)絡(luò)相比,具有權(quán)值共享、局部感知等特點(diǎn)[15-16],充分地利用了輸入值的空間關(guān)系信息,并且容易使用硬件加速[9]。綜合考慮模型的分類能力、魯棒性以及識(shí)別效率等因素,本文使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢識(shí)別。
2.1樣本、特征以及網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本是根據(jù)手勢檢測步驟中得到的窗口值topk 8×8窗口計(jì)算出來的。在確定窗口值topk 8×8窗口時(shí),記錄下這k個(gè)窗口在對(duì)應(yīng)的膚色似然圖中的坐標(biāo)。根據(jù)這個(gè)坐標(biāo)計(jì)算出原圖像所對(duì)應(yīng)的窗口坐標(biāo)。這個(gè)過程可以看作是根據(jù)圖2(c)中的8×8窗口位置來獲取圖2(a)中對(duì)應(yīng)尺度的窗口圖像位置,進(jìn)而獲得窗口圖像。在獲取窗口圖像后,本文將備選窗口圖像大小調(diào)整為29×29,然后計(jì)算它的膚色似然圖,得到29×29的膚色似然圖作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。卷積神經(jīng)網(wǎng)絡(luò)的特征選擇可以有很多,比如窗口的灰度圖、梯度特征、局部二進(jìn)制特征。選用29×29的膚色似然圖的原因是膚色似然圖在膚色檢測的過程中已經(jīng)計(jì)算過一遍,不需要再重復(fù)計(jì)算。訓(xùn)練樣本一共分為10類,6個(gè)備選手勢類,4個(gè)錯(cuò)誤類。這里設(shè)計(jì)4個(gè)錯(cuò)誤類的原因是因?yàn)樵谑謩輩^(qū)域提取的過程中,被錯(cuò)分成手勢區(qū)域的候選框是有著明顯的特點(diǎn)的。主要的幾類情況是識(shí)別到手勢邊緣,識(shí)別到手勢中心,識(shí)別到非手勢區(qū)域,可以參考圖2(b)的情形。在網(wǎng)絡(luò)設(shè)計(jì)的時(shí)候需要重點(diǎn)關(guān)注這些錯(cuò)誤的情形,實(shí)驗(yàn)發(fā)現(xiàn),將所有的錯(cuò)誤情形視為1類的模型識(shí)別率要低于將錯(cuò)誤情形分成4類的模型。將錯(cuò)誤情形分為4類的卷積神經(jīng)網(wǎng)絡(luò)一共有10個(gè)輸出節(jié)點(diǎn),其中6個(gè)代表6種不同的手勢,另外4個(gè)代表4類典型的錯(cuò)誤。需要注意的是,在計(jì)算模型準(zhǔn)確率的時(shí)候并不將4類錯(cuò)誤加以區(qū)分。假定4類錯(cuò)誤分別為錯(cuò)誤1、錯(cuò)誤2、錯(cuò)誤3、錯(cuò)誤4,將錯(cuò)誤1識(shí)別成了錯(cuò)誤2,仍然認(rèn)為模型判斷正確。
為了使樣本具有平移和小幅度旋轉(zhuǎn)的魯棒性,對(duì)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本進(jìn)行了一些平移和旋轉(zhuǎn)上的擴(kuò)展。考慮到手勢與手寫字符的區(qū)別,本文并沒有進(jìn)行彈性形變擴(kuò)展。整個(gè)卷積網(wǎng)絡(luò)的結(jié)構(gòu)如圖4所示。
本文參照文獻(xiàn)[15]中提到的方法來設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)包含兩個(gè)卷積層:第1層用來提取一些類似于邊緣、角點(diǎn)、交線的底層圖像特征;第2個(gè)卷積層以這些特征為基礎(chǔ)生成更加復(fù)雜的特征。兩個(gè)下采樣層均按照2×2的因子進(jìn)行最大池化,卷積核的大小定為5×5,第1個(gè)卷積層有5個(gè)卷積核,第2個(gè)卷積層有10個(gè)卷積核。光柵化之后采用兩層全相連多層感知機(jī)結(jié)構(gòu),隱層單元數(shù)量設(shè)定為100個(gè),最后針對(duì)多分類問題,使用softmax設(shè)置10個(gè)輸出節(jié)點(diǎn)。
2.2卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算過程
本文使用的卷積神經(jīng)網(wǎng)絡(luò)主要參照文獻(xiàn)[17]中提到的算法實(shí)現(xiàn)。下面主要針對(duì)卷積層和下采樣層的正向計(jì)算和反向傳播計(jì)算進(jìn)行討論。
2.2.1正向計(jì)算
2.2.2反向傳播
3實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)平臺(tái)為Intel Core i74702MQ 2.2GHz, 4GB RAM, NVIDIA GeForce GTX 760M。CPU支持POPCNT命令,顯卡支持CUDA平臺(tái),操作系統(tǒng)為Windows 8 Pro 64位。
3.1手勢檢測部分
手勢檢測部分所采用的數(shù)據(jù)集是Sebastien Marcel Static Hand Posture Database數(shù)據(jù)集,數(shù)據(jù)集包含10個(gè)人的6種手勢(a,b,c,point,five,v)(A,B,C,Point(P),F(xiàn)ive(F),V),總共接近5000個(gè)樣本(如圖5)。
實(shí)驗(yàn)對(duì)簡單環(huán)境和復(fù)雜環(huán)境分別取100張測試圖片進(jìn)行測試(如圖6)。在實(shí)驗(yàn)中發(fā)現(xiàn),在簡單環(huán)境下,直接獲取“窗口值”最大的窗口作為備選區(qū)域即可。在光照變化和背景復(fù)雜的情況下,“窗口值”大小前4的窗口已經(jīng)可以覆蓋所有的實(shí)際手勢區(qū)域,即達(dá)到100%的召回率(如表1)。
實(shí)驗(yàn)對(duì)比了基于滑動(dòng)窗口方法實(shí)現(xiàn)手勢檢測、多模板匹配外加人臉排除以及本文的手勢檢測方法的運(yùn)算速度。在3種不同尺寸的樣本中分別取1000張測試圖片進(jìn)行測試,結(jié)果如表2所示。
3.2手勢識(shí)別部分
手勢識(shí)別部分的樣本來源于手勢檢測部分的結(jié)果。數(shù)據(jù)一共分為10類,除了6個(gè)手勢類之外,還設(shè)定4個(gè)錯(cuò)誤類。4類錯(cuò)誤分別命名為E1、E2、E3、E4。其中:E1代表識(shí)別到手勢中心;E2代表識(shí)別到手勢邊緣;E3代表識(shí)別到非手勢干擾區(qū);E4代表除E3之外的弱干擾區(qū),如圖7所示。
因?yàn)?0類的訓(xùn)練樣本數(shù)量有一定的差異。其中最多的手勢Point有1395個(gè)樣本,最少的V有435個(gè)樣本。錯(cuò)誤類樣本中總量為1216個(gè),其中E1 178個(gè),E2 81個(gè),E3 943,E4 14個(gè),這個(gè)具體數(shù)量與手勢檢測所設(shè)定的備選窗口數(shù)量有關(guān)以及選擇的輸入圖片有關(guān),可以調(diào)整,本文實(shí)驗(yàn)中備選窗口數(shù)量設(shè)為4,輸入圖片中背景復(fù)雜的一共有473張。在樣本不平衡的情況下所訓(xùn)練出卷積神經(jīng)網(wǎng)絡(luò)模型測試準(zhǔn)確率為93%左右。對(duì)樣本進(jìn)行抽樣和擴(kuò)展,擴(kuò)展方法如下。
1)對(duì)于6個(gè)手勢類,在每個(gè)類的訓(xùn)練集中隨機(jī)抽取350張樣本,對(duì)抽取的圖片在隨機(jī)方向上進(jìn)行1到2個(gè)像素的平移得到另外350個(gè)樣本,每一類總共會(huì)得到700個(gè)樣本。
2)對(duì)于錯(cuò)誤類E1,首先對(duì)訓(xùn)練集進(jìn)行4次隨機(jī)方向上1到2個(gè)像素的平移,每一次都會(huì)得到一個(gè)新的訓(xùn)練樣本,最后進(jìn)行隨機(jī)抽樣,每類選擇700個(gè)樣本。
3)對(duì)于錯(cuò)誤類E2,首先對(duì)訓(xùn)練集進(jìn)行10次隨機(jī)方向上1到2個(gè)像素的平移,每一次都會(huì)得到一個(gè)新的訓(xùn)練樣本,最后進(jìn)行隨機(jī)抽樣,每類選擇700個(gè)樣本。
4)對(duì)于錯(cuò)誤類E3,直接進(jìn)行隨機(jī)抽樣,每類選擇700個(gè)樣本。
5)對(duì)于錯(cuò)誤類E4,將樣本復(fù)制50次,獲取700個(gè)樣本。
擴(kuò)展后的訓(xùn)練集有6000張訓(xùn)練樣本,測試集有1000個(gè)樣本。手勢識(shí)別的結(jié)果如表3所示,在手勢識(shí)別部分修正后的準(zhǔn)確率為96.1%,空格部分代表0,4個(gè)錯(cuò)誤類準(zhǔn)確率計(jì)算方式在2.1節(jié)有說明。
圖8對(duì)比了本文算法和其他算法的性能,當(dāng)訓(xùn)練樣本大于100時(shí),本文算法和特征包算法的準(zhǔn)確率相近。算法的運(yùn)行效率明顯高于特征包(Bag of Features, BoF)算法,如表4所示,平均識(shí)別時(shí)間表示的是手勢識(shí)別算法對(duì)單一“窗口”圖像的計(jì)算時(shí)間,整體計(jì)算時(shí)間包含了手勢檢測和手勢識(shí)別兩個(gè)部分以及一些預(yù)處理環(huán)節(jié),基于特征包的兩類算法對(duì)應(yīng)的手勢檢測方法采用的是對(duì)模板匹配和人臉排除,本文的算法是采用位運(yùn)算支持向量機(jī)和CUDA卷積神經(jīng)網(wǎng)絡(luò)。CUDA卷積神經(jīng)網(wǎng)絡(luò)處理29×29大小的圖片用時(shí)約為0.001s。手勢識(shí)別過程中,因?yàn)榉指钏惴ㄇ蟮玫氖?個(gè)備選窗口,所以識(shí)別過程中需要識(shí)別4個(gè)窗口,對(duì)一幅輸入圖像而言手勢檢測和識(shí)別總用時(shí)約為0.013s。
實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠在光照變化、背景復(fù)雜的情況下依然保持高準(zhǔn)確率和良好的運(yùn)算效率。
4結(jié)語
本文提出了一種新型的手勢識(shí)別方法,與傳統(tǒng)的手勢識(shí)別方法相比,本文方法利用位運(yùn)算代替滑動(dòng)窗口,在數(shù)微秒的時(shí)間內(nèi)將備選窗口數(shù)量由千萬級(jí)別縮減到個(gè)位數(shù)。獲取備選區(qū)域之后使用基于CUDA的卷積神經(jīng)網(wǎng)絡(luò)對(duì)備選區(qū)域進(jìn)行細(xì)分和識(shí)別。在實(shí)際的計(jì)算過程中可以通過硬件優(yōu)化得到100至1000倍的加速比。本文方法僅僅通過膚色似然特征就在Marcel數(shù)據(jù)集上得到了96%左右的準(zhǔn)確率。本文提出的方法主要解決了魯棒性和計(jì)算復(fù)雜度的矛盾,并且方法所使用的特征可以使用其他的特征替換,這使得模型具有良好的可擴(kuò)展性。
本文方法的局限性主要體現(xiàn)在對(duì)特征提取的召回率有要求,如果完全沒辦法提取到特征,本文的方法會(huì)失效。另外,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練耗時(shí)長,網(wǎng)絡(luò)設(shè)計(jì)依賴經(jīng)驗(yàn),在更加復(fù)雜的分類上,卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的設(shè)計(jì)也會(huì)更加困難。
參考文獻(xiàn):
[1]
談家譜,徐文勝.基于Kinect的指尖檢測與手勢識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2015,35(6):1795-1800.(TAN J P, XU W S. Fingertip detection and gesture recognition method based on Kinect [J]. Journal of Computer Applications, 2015, 35(6): 1795-1800.)
[2]
NEWCOMBE R A, IZADI S, HILLIGES O, et al. KinectFusion: realtime dense surface mapping and tracking [C]// Proceedings of the 2011 IEEE International Symposium on Mixed and Augmented Reality. Washington, DC: IEEE Computer Society, 2011: 127-136.
[3]
譚同德,郭志敏.基于雙目視覺的人手定位與手勢識(shí)別系統(tǒng)研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(1):259-264.(TAN T D, GUO Z M. Research on location and gesture recognition of hand based on binocular stereovision [J]. Computer Engineering and Design, 2012 33(1): 259-264.)
[4]
WACHS J P, KLSCH M, STERN H, et al. Visionbased handgesture applications [J] Communications of the ACM, 2011, 54(2): 60-70.
[5]
SAMUEL D, RATHI Y, A. TANNENBAUM A. A framework for image segmentation using shape models and kernel space shape priors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(8): 1385-1399.
[6]
DARDAS N H, GEORGANAS N D. Realtime hand gesture detection and recognition using bagoffeatures and support vector machine techniques [J]. IEEE Transactions on Instrumentation & Measurement, 2011, 60(11): 3592-3607.
[7]
BELONGIE S, MALIK J, PUZICHA J. Shape matching and object recognition using shape contexts [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 509-522.
[8]
CHENG M M, ZHANG Z M, LIN W Y. BING: binarized normed gradients for objectness estimation at 300fps [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 3286-3293.
[9]
STRIGL, KOFLER K, PODLIPNIG S. Performance and scalability of GPUbased convolutional neural networks [C]// Proceedings of the 2010 18th Euromicro Conference on Parallel, Distributed and Networkbased Processing. Piscataway, NJ: IEEE, 2010: 317-324.
[10]
BOJIC N, PANG K. Adaptive skin segmentation for head and shoulder video sequences [C]// Visual Communications and Image Processing 2000. Bellingham, WA: SPIE, 2000: 704-711.
[11]
KOVAC J, PEER P, SOLINA F. Human skin color clustering for face detection [C]// IEEE Region 8 EUROCON 2003. Computer as a Tool. Piscataway, NJ: IEEE, 2003, 2: 144-148.
[12]
FAN R E, CHANG K W, HSIEH C J, et al. Liblinear: a library for large linear classification [J]. Journal of Machine Learning Research, 2008, 9(12): 1871-1874.
[13]
HARE S, SAFFARI A, TORR P H S. Efficient online structured output learning for keypointbased object tracking [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 1894-1901.
[14]
ZHENG S, STURGESS P, TORR P H S. Approximate structured output learning for constrained local models with application to realtime facial feature detection and tracking on lowpower devices [C]// Proceedings of the 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway, NJ: IEEE, 2013: 1-8.
[15]
SIMARD P Y, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// Proceedings of the Seventh International Conference on Document Analysis and Recognition. Washington, DC: IEEE Computer Society, 2003: 958-963.
[16]
LECUN Y, BOSER B, DENKER J S, et al. Handwritten digit recognition with a backpropagation network [M]// Advances in Neural Information Processing Systems 2. San Francisco: Morgan Kaufmann, 1990: 396-404.
關(guān)鍵詞:車牌識(shí)別系統(tǒng); 智能交通; 技術(shù)
中圖分類號(hào): TP391.4文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)18-20ppp-0c
Research on Licence Plate Recognition System
YI Lian-jie
(Loudi Vocational and Technical College Loudi Huanan417000)
Abstract: The licence plate recognition system has an importantrole of morden intelligent traffic system. This paper narrated the key technology ofthe licence plate recognition system and discussed the existing problems and development of the licence plate recognition system.
Keywords: the licence plate recognition system; intelligent traffic system; technology
車牌識(shí)別系統(tǒng)是智能交通系統(tǒng)的關(guān)鍵部分,可廣泛應(yīng)用于交通管理、監(jiān)控和電子收費(fèi)等場合。車牌識(shí)別系統(tǒng)就是以車牌作為車輛的唯一標(biāo)識(shí),采用計(jì)算機(jī)視覺和模式識(shí)別技術(shù)對(duì)汽車車牌的自動(dòng)識(shí)別。
1 車牌識(shí)別系統(tǒng)的組成
典型的車牌識(shí)別系統(tǒng)由車輛檢測、圖像采集、車牌識(shí)別等部分組成(圖1)。車輛檢測就是使用車輛傳感器或紅外線檢測等來判斷車輛是否通過某一位置。當(dāng)車輛駛過探測部位時(shí),CCD攝像機(jī)拍攝車輛圖像,由圖像采集卡采集圖像并輸入計(jì)算機(jī)。車牌識(shí)別部分由計(jì)算機(jī)和識(shí)別軟件組成,從由CCD攝像機(jī)采集的圖像中自動(dòng)尋找車牌,然后對(duì)找到的車牌進(jìn)行字符切分和識(shí)別,最后獲得車牌號(hào)碼,并將識(shí)別結(jié)果送至監(jiān)控中心等場合。
圖1車牌識(shí)別系統(tǒng)的組成
在整個(gè)識(shí)別系統(tǒng)中,以車牌識(shí)別最為關(guān)鍵。識(shí)別過程有兩個(gè)步驟,首先從圖像中找出確切的車牌位置,即車牌定位,然后對(duì)找出的車牌進(jìn)行字符切分和識(shí)別。車牌識(shí)別過程包含兩大關(guān)鍵技術(shù):1.車牌區(qū)域定位技術(shù);2.車牌字符切分和識(shí)別技術(shù)。
2 車牌定位技術(shù)
圖像輸入計(jì)算機(jī)后,系統(tǒng)要自動(dòng)找出車牌的準(zhǔn)確位置。車牌區(qū)域定位是車牌字符切分和識(shí)別的基礎(chǔ),是提高系統(tǒng)識(shí)別率的關(guān)鍵。車牌定位過程包括三個(gè)步驟:圖像預(yù)處理、車牌搜索和車牌糾偏。
2.1 圖像預(yù)處理
圖像預(yù)處理的作用:平滑去噪和車牌特征增強(qiáng)。
平滑去噪就是消除圖像上由于光照、車牌污損等產(chǎn)生的噪聲干擾。平滑方法主要有平均濾波、中值濾波和指數(shù)函數(shù)濾波等方法。中值濾波和指數(shù)濾波平滑效果好且能較好保持牌照和字符邊緣,但在平滑效果和處理速度方面不如平均濾波。
通常的車牌定位算法是依據(jù)車牌特征從圖像中找出車牌,因此必須使車牌區(qū)域顯示出與非車牌區(qū)域不同的獨(dú)有的特征,車牌特征增強(qiáng)使圖像中車牌區(qū)域明顯突出。通常有下述增強(qiáng)方法:邊緣檢測法、二值化法、量化法、數(shù)學(xué)形態(tài)學(xué)法。
具有不同灰度的相鄰區(qū)域之間存在邊緣,在車牌區(qū)域存在車牌邊框邊緣和車牌字符邊緣。邊緣檢測法就是要檢測出這些邊緣。有關(guān)邊緣檢測的算法很多,考慮實(shí)時(shí)性要求,采用簡單的微分算子,如一階微分算等。這些算子采用小區(qū)域模板與圖像卷積實(shí)現(xiàn)邊緣檢測。文獻(xiàn)[1]提出一種牌照字符邊緣特征增強(qiáng)的方法,該方法使用線性濾波器函數(shù)將每一行中多個(gè)連續(xù)的水平方向梯度值相加,使得字符的垂直邊緣增強(qiáng)。微分算子對(duì)噪聲較為敏感,因此在使用之前需要平滑去噪。LOG算子是高斯指數(shù)平滑法與Laplacian算子相結(jié)合的邊緣檢測方法,既能消除噪聲又能很好的突出車牌字符的邊緣。
二值化增強(qiáng)法先確定一個(gè)閾值,然后將圖像中各個(gè)像素的灰度值都與這個(gè)閾值比較,根據(jù)比較結(jié)果將整個(gè)圖像的像素點(diǎn)分為兩類,車牌區(qū)域歸為一類,便于車牌搜索。為了滿足實(shí)時(shí)性要求,采用簡單、快速的二值化法,如平均閾值法,反積分自適應(yīng)閾值法等。
文獻(xiàn)[3]使用神經(jīng)網(wǎng)絡(luò)來對(duì)彩色圖像量化,使得車牌區(qū)域的字符為一種特定的顏色,然后進(jìn)行顏色過濾或線掃描,借此提取車牌。該方法首先必須選取車牌樣本圖像,并且要把RGB顏色模式轉(zhuǎn)換為HSI模式,以HSI各分量值作為輸入對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再以訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)圖像的各像素點(diǎn)量化分類,該方法抗干擾能力強(qiáng),量化前可不要求平滑,
數(shù)學(xué)形態(tài)學(xué)表示以形態(tài)為基礎(chǔ)對(duì)圖像進(jìn)行分析的數(shù)學(xué)工具,它的基本思想使用具有一定形態(tài)的結(jié)構(gòu)元素去量度和提取圖像中的對(duì)應(yīng)形狀以達(dá)到對(duì)圖像分析和識(shí)別的目的。數(shù)學(xué)形態(tài)學(xué)有四種基本的運(yùn)算:膨脹,腐蝕,開啟和閉合。出于以下兩個(gè)意圖而使用形態(tài)學(xué)方法:1.將開啟和閉合結(jié)合起來,消除二值化后的車牌區(qū)域中存在的細(xì)小空洞;2.采用水平線段的結(jié)構(gòu)元素膨脹,使二值化后的車牌區(qū)域成為一連通區(qū)域。
需要說明的是,上述方法往往不是單獨(dú)使用,如二值化法是對(duì)邊緣檢測后的圖像進(jìn)行,而形態(tài)學(xué)方法是在二值化圖上實(shí)現(xiàn)。不能簡單的評(píng)價(jià)圖像預(yù)處理方法的優(yōu)劣,因?yàn)檫@與所對(duì)應(yīng)的車牌搜索方法緊密相關(guān)。
2.2 車牌搜索
車牌搜索就是根據(jù)車牌區(qū)域特征在圖像中尋找車牌的過程。根據(jù)搜索的方式可把車牌搜索方法分為以下幾種:投影統(tǒng)計(jì)法、線掃描法、模板匹配法和反Hough變換法等。車牌搜索法要與相應(yīng)的車牌增強(qiáng)法配合使用(見表2)。
表2車牌增強(qiáng)法用于不同搜索法的情況
投影統(tǒng)計(jì)法對(duì)邊緣化或二值化圖像進(jìn)行水平和垂直累加投影,根據(jù)投影直方圖呈現(xiàn)的連續(xù)峰、谷、峰的分布的特征來提取車牌,或?qū)τ尚螒B(tài)學(xué)膨脹運(yùn)算后的圖像水平和垂直投影,在投影圖上尋找波峰和波谷而確定車牌位置。文獻(xiàn)[24]提出的采用高斯指數(shù)函數(shù)對(duì)投影圖平滑,能有效消除投影圖的毛刺,使車牌位置為明顯的波峰,提高車牌定位的精度。
線掃描搜索法則是對(duì)邊緣化或二值化后的圖像逐行水平掃描,穿過車牌區(qū)域的掃描線因?yàn)樽址吘壍拇嬖?,灰度呈現(xiàn)起伏的峰、谷、峰的變化,或頻繁交替出現(xiàn)亮基元、暗基元的特征,以提取車牌。文獻(xiàn)[3]用神經(jīng)網(wǎng)絡(luò)對(duì)彩色圖像量化之后,再逐行水平掃描,分別獲取顏色向量和長度向量,能與標(biāo)準(zhǔn)車牌區(qū)域的顏色向量和長度向量匹配的為車牌區(qū)域。
模板匹配搜索法是以特定的模板在圖像區(qū)域滑動(dòng),以與模板匹配的局部區(qū)域?yàn)檐嚺啤J褂玫哪0逵芯€模板、倒”L”角模板、矩形框模板。線模板以水平線段或垂直線段為模板,來檢測車牌的邊框角點(diǎn);倒“L”模板以倒“L”結(jié)構(gòu)為模板來尋找車牌邊框的左上角;矩形框模板以一個(gè)與車牌長寬比例相當(dāng)?shù)木匦慰蜃鳛槟0?,在整個(gè)圖像區(qū)域滑動(dòng),以符合某一判別函數(shù)值的區(qū)域作為車牌區(qū)域。
反Hough變換搜索法是基于車牌形狀特征的方法,先對(duì)圖像進(jìn)行Hough變換,然后在Hough參數(shù)空間尋找車牌的四個(gè)端點(diǎn)。
上述搜索法可以結(jié)合使用,如文獻(xiàn)[25]提出的自適應(yīng)邊界搜索法,先用倒”L”模板尋找車牌邊框的左上角,然后用水平線掃描和垂直線掃描找出下邊框和右邊框。投影統(tǒng)計(jì)搜索法和線掃描搜索法處理速度快,能對(duì)大小不同的車牌識(shí)別,但定位精度不高和出現(xiàn)虛假車牌的情況,需要提高定位精度和去除虛假車牌的后續(xù)工作。模板匹配搜索法能比較準(zhǔn)確的找到車牌位置,但難以滿足實(shí)時(shí)性要求,可以采用神經(jīng)網(wǎng)絡(luò)或遺傳算法來加快搜索進(jìn)程。反Hough變換搜索法除了能準(zhǔn)確找到車牌位置,還能確定車牌的傾斜角度,對(duì)噪聲、輪廓線中斷不敏感,但在有直線干擾下可能實(shí)效,文獻(xiàn)[28]提出的快速Hough變換的策略能滿足實(shí)時(shí)性要求。
2.3 車牌糾偏
由于車輛運(yùn)行軌跡不定、攝像機(jī)位置偏斜等原因,使得圖像中車牌扭曲,為了后續(xù)正確的車牌字符切分和識(shí)別,就須對(duì)車牌糾偏,使車牌達(dá)到規(guī)范的位置和大小。采用的糾偏方法通常先是用Hough變換確定水平邊框傾斜角度和垂直邊框傾斜角度,然后糾偏。文獻(xiàn)[22]提出使用Rodan 變換可用來確定傾斜角度。
3 車牌字符識(shí)別技術(shù)
車牌定位之后就要對(duì)車牌字符識(shí)別。這一過程包含下列幾個(gè)步驟(見圖2):車牌二值化,字符切分,字符特征提取和字符識(shí)別。這里只討論后三個(gè)步驟。
圖2 車牌字符識(shí)別步驟
3.1 字符切分
字符切分把車牌上的字符分開,得到一個(gè)個(gè)的字符圖像。常用的字符切分方法有投影法、模板匹配法、區(qū)域生長法、聚類分析法等。
投影法把車牌圖像垂直累加投影,形成峰谷交替的投影直方圖,找到投影圖的各個(gè)谷就能把字符分開。模板匹配法以字符大小的矩形作為模板,根據(jù)字符的寬度初步確定每個(gè)字符的起始位置,然后以此模板在初定位置附近滑動(dòng),找到最佳匹配位置而切分字符。區(qū)域生長法對(duì)每個(gè)需要分割的字符找一個(gè)像素作為生長起點(diǎn)的種子,將種子像素周圍鄰域中與之相同或相近性質(zhì)的像素合并到種子像素所在的區(qū)域,然后將這些新像素當(dāng)作新的種子繼續(xù)進(jìn)行上述過程,直到再?zèng)]有滿足條件的像素可被包含進(jìn)來?;诰垲惙治龅姆椒▽?duì)車牌圖像從上到下逐行掃描,如屬于字符類的兩像素間距離小于閾值,可認(rèn)為兩像素為同一字符,由此而得字符像素的聚類。
3.2 字符特征提取和車牌字符識(shí)別
目前使用的車牌字符特征提取的方法可歸納為下述三種:1.基于字符統(tǒng)計(jì)特征。計(jì)算字符圖像的多階原點(diǎn)矩,多階中心矩以及中心慣性矩,以中心矩與中心慣性矩的比值作為字符特征向量,這樣提取的特征量具有平移,旋轉(zhuǎn)和尺度不變性,但運(yùn)算量大;也有把字符在多個(gè)方向上的投影(如水平方向,垂直方向,右斜方向,左斜方向)和二階中心矩的比值作為特征向量。2.基于結(jié)構(gòu)特征。輪廓特征,粗網(wǎng)格特征,層次輪廓特征以及字符特征點(diǎn).這類特征提取計(jì)算量較少,但對(duì)噪聲和位置變化比較敏感,需要去噪和對(duì)字符歸一化。3.基于變換。對(duì)原始特征(像素點(diǎn)矩陣)進(jìn)行傅里葉變換、K-L變換或小波變換等,提取的特征向量反映字符的結(jié)構(gòu)特征和統(tǒng)計(jì)特征,相似字符的特征矢量距離較大,效果較好。實(shí)際應(yīng)用中往往是多種特征的提取,多種特征提取方法的使用。
對(duì)車牌字符特征提取之后,就把相應(yīng)的特征值輸入分類器識(shí)別,目前對(duì)于車牌字符的分類識(shí)別方法歸納為下列幾種。(1)模板匹配。該方法首先對(duì)待識(shí)字符進(jìn)行二值化并將其縮放為字符數(shù)據(jù)庫中模板大小,然后與所有的字符模板比較匹配,計(jì)算相似度,以最大相似度者為識(shí)別結(jié)果。(2)PCA子空間分類器。子空間分類器由訓(xùn)練樣本相關(guān)矩陣的特征向量構(gòu)成,單個(gè)模式的子空間建立彼此獨(dú)立,相互之間沒有聯(lián)系,以待識(shí)別字符的特征向量與所對(duì)應(yīng)的子空間距離最小作為結(jié)果。(3)基于人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)有抗噪聲、容錯(cuò)、自適應(yīng)、自學(xué)習(xí)能力強(qiáng)的特點(diǎn)。多隱含層的BP神經(jīng)網(wǎng)絡(luò),BAM(Bidirectional association memories)神經(jīng)網(wǎng)絡(luò)方法,自諧振ART神經(jīng)網(wǎng)絡(luò)識(shí)別等是此方法的典范。(4)基于邏輯規(guī)則推理的識(shí)別方法。文獻(xiàn)[18]提出基于歸納推理的字符識(shí)別,該方法在訓(xùn)練時(shí)自動(dòng)生成識(shí)別規(guī)則。(5)基于隨機(jī)場圖像模擬的識(shí)別方法。該方法識(shí)別率高,并且可對(duì)灰度圖像直接提取字符特征,抗干擾性強(qiáng)。另外使用感知器的識(shí)別,通常感知器只用于相似字符對(duì)的識(shí)別,作為其他識(shí)別方法的補(bǔ)充。
4 總結(jié)與展望
從已有車牌識(shí)別系統(tǒng)的性能分析來看,正確識(shí)別率和識(shí)別速度兩者難以同時(shí)兼顧。其中原因包括目前的車牌識(shí)別技術(shù)還不夠成熟,又受到攝像設(shè)備、計(jì)算機(jī)性能的影響。
現(xiàn)代交通飛速發(fā)展,LPR系統(tǒng)的應(yīng)用范圍不斷擴(kuò)寬,對(duì)車牌識(shí)別系統(tǒng)的性能要求將更高。對(duì)現(xiàn)有的算法優(yōu)化或?qū)ふ易R(shí)別精度高、處理速度快、應(yīng)用于多種場合的算法將是研究的主要任務(wù)。
參考文獻(xiàn):
[1] 廖金周,宣國榮.車輛牌照的自動(dòng)分割[J].微型電腦應(yīng)用,1999(7):32-34.
[2] 劉智勇.車牌識(shí)別中的圖像提取及分割[J].中文信息文報(bào),2000(3):29-34.
[3] Wu Wei,Mingjun Wang.An Automatic Method of Location for Number_Plate Using Color Features IEEE 2001.
[4] 郭捷,施鵬飛.基于顏色和紋理分析的車牌定位方法[J].中國圖像圖形學(xué)報(bào),2002,7(5):473-476.
[5] 章毓晉.圖像工程(上)――圖像處理與分析[M].清華大學(xué)出版社.
【關(guān)鍵詞】照相軟件 人臉識(shí)別技術(shù) 計(jì)算機(jī)
人臉識(shí)別作為一項(xiàng)現(xiàn)代化科技技術(shù),具有極大的發(fā)展空間。1964年,人臉識(shí)別(AFR)這一領(lǐng)域逐漸出現(xiàn)在人們的視野里,至于1991年至1997年,若干具有代表性的人臉識(shí)別算法誕生于世,到如今,以支持向量機(jī)為代表的統(tǒng)計(jì)學(xué)習(xí)理論被應(yīng)用到了人臉識(shí)別中來。前人的側(cè)重點(diǎn)在于對(duì)其算法的延伸探究,但就筆者而言,存在一定程度上專業(yè)知識(shí)的限制,因而根據(jù)自身的知識(shí)儲(chǔ)備與探究能力,將人臉識(shí)別技術(shù)這一寬泛概念的探討縮小至相對(duì)更貼近生活,且較為容易理解與研究的一個(gè)主題――對(duì)于照相機(jī)軟件中人臉識(shí)別技術(shù)的探究,并由此展開對(duì)計(jì)算機(jī)人臉識(shí)別的部分性探究。
1 對(duì)于人臉識(shí)別技術(shù)的初步了解
科幻性質(zhì)的故事往往以其并不符合實(shí)際的奇幻情節(jié),模糊得描繪了現(xiàn)實(shí)世界未來的發(fā)展藍(lán)圖。這里不得不提及一部具有啟發(fā)意義的電影――《生化危機(jī)》,電影中追蹤主角行蹤的衛(wèi)星定位人臉識(shí)別技術(shù),是否未來也將存在于我們的現(xiàn)實(shí)社會(huì)當(dāng)中?由此,便聯(lián)想到生活中照相軟件的人臉識(shí)別是否也是通過相似的原理而執(zhí)行的。
關(guān)于人臉識(shí)別,其本質(zhì)上隸屬于生物特征識(shí)別的一支。其余包含指紋識(shí)別,虹膜識(shí)別,DNA識(shí)別等技術(shù)。當(dāng)今最為廣泛運(yùn)用的是指紋識(shí)別,但隨之而來產(chǎn)生的是一定的安全性問題。例如去年熱門的高考替考話題,指紋貼的出現(xiàn)使指紋識(shí)別的安全性受到質(zhì)疑。而人臉識(shí)別仍處于一個(gè)不完全成熟的發(fā)展階段,就目前現(xiàn)狀來說,其所具有的不可復(fù)制性、自然性、不可察覺性,使其安全性與實(shí)用性都處于相對(duì)較高的水平。但同樣,其技術(shù)難度也呈正比例增長。
通過對(duì)與計(jì)算機(jī)信息科技的學(xué)習(xí),能夠得出這樣一個(gè)總結(jié)性結(jié)論:“人臉識(shí)別是通過計(jì)算機(jī)視覺的一些算法所實(shí)現(xiàn)的?!?/p>
前人對(duì)從不斷更新的研究中得出,人臉識(shí)別的基本算法有四種:
(1)基于人臉特征點(diǎn)的識(shí)別算法(Feature-based recognition algorithms)。
(2)基于整幅人臉圖像的識(shí)別算法(Appearance-based recognition algorithms)。
(3)基于模板的識(shí)別算法(Template-based recognition algorithms)。
(4)利用神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別的算法(Recognition algorithms using neural network)。
當(dāng)然,如今也早已存在許多其他的的算法能夠支持人臉識(shí)別技術(shù)的實(shí)現(xiàn)。而對(duì)于該項(xiàng)技術(shù)的應(yīng)用的范圍也在逐漸擴(kuò)大,門禁考勤系統(tǒng)、住宅安全管理、電子身份等等,都將在很大程度上的得益于其的不斷發(fā)展。
讓我們回到主題:照相機(jī)的人臉跟蹤究竟是如何實(shí)現(xiàn)的呢?圍繞這一問題,由淺及深,筆者將本文中的探究內(nèi)容主要分為以下三個(gè)部分:
(1)圖像在計(jì)算機(jī)內(nèi)部的存儲(chǔ)方式。
(2)計(jì)算機(jī)如何區(qū)分出物體與其所在背景。
(3)計(jì)算機(jī)如何定位人臉并從而實(shí)現(xiàn)識(shí)別功能。(注:由于照相軟件只是作為一個(gè)對(duì)于人臉識(shí)別問題的切入點(diǎn),單單深究照相軟件會(huì)帶來一定的局限性,因此二、三兩點(diǎn)將跳過作為載體的照相軟件,直接對(duì)于照相機(jī)功能背后的原理作進(jìn)一步探究。)
1.1 圖像在計(jì)算機(jī)內(nèi)部的儲(chǔ)存方式
計(jì)算機(jī)通過往往通過bitmap的形式來儲(chǔ)存圖像,也就是像素矩陣。
從結(jié)構(gòu)上講,計(jì)算機(jī)中儲(chǔ)存的圖像一把可以分為兩大類,即矢量圖和位圖。矢量圖通過數(shù)學(xué)公式計(jì)算獲得,優(yōu)點(diǎn)在于不會(huì)失真,但其最大的缺點(diǎn)是難以表現(xiàn)色彩層次豐富的逼真圖像效果。而位圖的基本思想,則是把一幅圖像按照行列進(jìn)行分割,所獲得的點(diǎn)成為像素。相機(jī)所拍攝獲得的照片便是以位圖的形式儲(chǔ)存的。每一幅圖像均是由無數(shù)像素組成,而每一個(gè)像素對(duì)應(yīng)顯存中1、8、16或24位二進(jìn)制數(shù)來表示顏色信息。位數(shù)決定了圖像所含的最大顏色數(shù),位數(shù)越多,圖像的色彩就越豐富。
1.2 計(jì)算機(jī)如何區(qū)分出物體與其所在背景
大致的過程可以由圖1所知,用相對(duì)容易理解的話來解釋,計(jì)算機(jī)對(duì)于區(qū)分物體與其所在背景,首先是通過對(duì)要是別的物體提取表面特征,然后再對(duì)真實(shí)的照片提取表面特征,最終在進(jìn)行匹配,配合相應(yīng)的算法,這樣,計(jì)算機(jī)便可以區(qū)分出物體與其所在背景。
由此所延伸的科目是計(jì)算機(jī)視覺。
正如定義所提到:計(jì)算機(jī)視覺是一門關(guān)于如何運(yùn)用照相機(jī)和計(jì)算機(jī)來獲取我們所需的,被拍攝對(duì)象的數(shù)據(jù)與信息的學(xué)問。
通過這門科目,我們能夠做到使用計(jì)算機(jī)來處理圖像,并區(qū)分出目的對(duì)象。形象地說,在這門科目的輔助之下,計(jì)算機(jī)能夠成為人類的第二雙眼睛,對(duì)目標(biāo)進(jìn)行識(shí)別、跟蹤和測量。
“One picture is worth ten thousand words.”圖像的處理,將為人類提供巨大的便捷。
大致羅列出其處理所進(jìn)行的步驟,分別是:圖像獲取、特征提取、檢測分割、高級(jí)處理。
1.3 計(jì)算機(jī)如何定位人臉并從而實(shí)現(xiàn)識(shí)別功能
關(guān)于人臉的定位與識(shí)別,在很大一定程度上與區(qū)別物體與背景的技術(shù)存在著相似之處。但是人臉的定位與識(shí)別,又是更高于目標(biāo)對(duì)象的識(shí)別的。這正是算法的不停更新與發(fā)展所帶來的科技發(fā)展的結(jié)果。
目前比較流行的Cascade Classifier(Opencv中做人臉檢測的時(shí)候的一個(gè)級(jí)聯(lián)分類器)效果還是比較好的,正臉檢測到的成功率能達(dá)到90%以上。
此外,在人臉局部區(qū)域特征提取時(shí),一種叫做CNN(Convolutional Neural Network)卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的運(yùn)用――使用提取特征的filter對(duì)像素點(diǎn)進(jìn)行幾層處理,也為識(shí)別帶來一定的便利。CNN運(yùn)用到了深度學(xué)習(xí),因此這里將拓展以下有關(guān)deep learning的概念:
deep learning的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。其三大框架為:CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò)),DBN(Deep Belief Network,深度置信網(wǎng)絡(luò)),AE(AutoEncoder,自動(dòng)編碼機(jī))。而目前在CV(Computer Vision的縮寫,指計(jì)算機(jī)視覺)領(lǐng)域應(yīng)用最廣的是CNN。到近來也有很多人嘗試用deep learning的方法來實(shí)現(xiàn)人臉識(shí)別,其與先前所提到的計(jì)算機(jī)區(qū)分物體和背景的原理也是相似的。
2 結(jié)論
回到最初的問題:照相機(jī)的人臉跟蹤是如何實(shí)現(xiàn)的?綜上所述,可以獲得的結(jié)論是:照相機(jī)的人臉跟蹤是通過計(jì)算機(jī)視覺的一些算法實(shí)現(xiàn)的。但這些算法在技術(shù)方面人仍然面臨著一些難點(diǎn),例如,在特征識(shí)別時(shí),外界客觀因素,有如,光線、著裝遮擋、目標(biāo)對(duì)象的姿態(tài)、臉型、樣本缺乏等等尚未解決的問題。這些都使人臉識(shí)別技術(shù)尚有巨大的可發(fā)展空間。就像前段時(shí)間由推出的How Old do I Look線上臉部偵測服務(wù),曾一度掀起熱潮,可見,人們對(duì)于人臉識(shí)別技術(shù)的期望也是很高的。
那么,未來的人臉識(shí)別技術(shù)到底能夠發(fā)展到何種程度呢?香港中文大學(xué)教授湯曉鷗、王曉剛及其研究團(tuán)隊(duì)曾在2014年6月宣布,他們研發(fā)的DeepID人臉識(shí)別技術(shù)的準(zhǔn)確率超過99%,比肉眼識(shí)別更加精準(zhǔn)。相信未來,計(jì)算機(jī)人臉識(shí)別技術(shù)將與我們共同成長,逐漸成熟與完善。畢業(yè)于UC Berkeley的博士賈揚(yáng)清,創(chuàng)造了Caffe――全稱Convolutional Architecture for Fast Feature Embedding,一個(gè)清晰而高效的深度學(xué)習(xí)框架,具有上手快、速度快、模塊化、開放性、社區(qū)好等優(yōu)點(diǎn)。如此不斷迅捷發(fā)展的計(jì)算機(jī)技術(shù),在這個(gè)數(shù)字化的時(shí)代,正是對(duì)未來發(fā)展很好的導(dǎo)向。
參考文獻(xiàn)
[1]韋鳳年.怎樣寫科技論文[J].河南水利,2006(09).
[2]董琳,趙懷勛.人臉識(shí)別技術(shù)的研究現(xiàn)狀與展望[J].China Academic Journal Electronic Publishing House,2011,10.
作者簡介
孫文倩(1998-),上海市人?,F(xiàn)在上海市洋涇中學(xué)高中在讀。
【關(guān)鍵詞】聲紋識(shí)別;小波濾波器組;基音周期;Mel倒譜系數(shù);高斯混合模型
1.引言
說話人聲紋識(shí)別可以看作是語音識(shí)別的一種。它和語音識(shí)別一樣,都是通過對(duì)所收到的語音信號(hào)進(jìn)行處理,提取相應(yīng)的特征或建立相應(yīng)的模型,然后據(jù)此作出判斷。而區(qū)別在于它并不注意語言信號(hào)中的語義內(nèi)容,而是希望從語音信號(hào)中提取出人的特征。從這點(diǎn)上說,說話人聲紋識(shí)別是企求挖掘出包含在語音信號(hào)中的個(gè)性因數(shù),而語音識(shí)別是企求從不同人的詞語信號(hào)中尋找相同因素。在處理方法上,說話人聲紋識(shí)別力圖強(qiáng)調(diào)不同人之間的差別,而語音識(shí)別則力圖對(duì)不同人說話的差別加以歸一化。世界范圍內(nèi),聲紋識(shí)別技術(shù)正廣泛應(yīng)用于諸多領(lǐng)域。截止到去年年初,聲紋識(shí)別產(chǎn)品的市場占有率為15.8%,僅次于指紋識(shí)別和掌形識(shí)別。
現(xiàn)有文獻(xiàn)中用于說話人識(shí)別的特征許多是建立在短時(shí)頻譜基礎(chǔ)上。它們主要有Mel頻率倒譜系數(shù)(MFCC),LPC倒譜系數(shù),差值倒譜等。在聲紋識(shí)別技術(shù)中,目前研究最多的方法有:模板匹配法、概率模型法和人工神經(jīng)網(wǎng)絡(luò)法。Soong等人將矢量量化技術(shù)用于與文本無關(guān)的說話人是被系統(tǒng)。Rosenberg等人利用子詞單元構(gòu)成的隱馬爾科夫模型(HMM),建立了一個(gè)說話人確認(rèn)系統(tǒng)。Delesby等人利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)方法進(jìn)行說話人識(shí)別[1]。我國的北京大學(xué)以遲惠生為領(lǐng)導(dǎo)的說話人識(shí)別研究團(tuán)體、清華大學(xué)以楊行峻為領(lǐng)導(dǎo)的研究團(tuán)體以及中國科學(xué)院聲學(xué)所和東南大學(xué)也在這個(gè)方面取得了非常優(yōu)秀的科研成果.從國內(nèi)外文獻(xiàn)看來,有的著重距離測度,但是大多數(shù)向幾種方法如HMM、GMM和ANN混合的方向發(fā)展。
2.聲紋識(shí)別的基本原理及相關(guān)算法
2.1 基本原理
聲紋識(shí)別的基本原理如圖1所示,主要包括兩個(gè)階段,即訓(xùn)練和識(shí)別階段。
訓(xùn)練階段,系統(tǒng)的每個(gè)使用者說出若干訓(xùn)練語句,系統(tǒng)據(jù)此建立每個(gè)使用者的模板或模型參數(shù)。識(shí)別階段,由待識(shí)人說的語音經(jīng)特征提取后與系統(tǒng)訓(xùn)練時(shí)產(chǎn)生的模板或模型參數(shù)進(jìn)行比較。在主說話人的辨認(rèn)中,取與測試音匹配距離最小的說話人模型所對(duì)應(yīng)的說話人作為識(shí)別結(jié)果;在說話人確認(rèn)中,則通過判斷測試音與所聲稱的說話人的模型的匹配距離是否小于一定閉值做出判斷。
2.2 語音信號(hào)的預(yù)處理
在語音信號(hào)特征提取之前,首先要進(jìn)行的一個(gè)環(huán)節(jié)就是對(duì)輸入語音信號(hào)的預(yù)處理,主要包括預(yù)濾波、預(yù)加重、加窗分幀以及語音端點(diǎn)檢測等過程。本文就以涉及到的預(yù)濾波進(jìn)行描述,預(yù)濾波在本文中是通過小波濾波器組來實(shí)現(xiàn)。預(yù)濾波器必須是一個(gè)帶通濾波器,其上、下截止頻率分別是和。對(duì)于絕大多數(shù)語音處理中,,,采樣率為。
2.3 聲紋特征提取
2.3.1 概述
提取說話人特征就是把原來語音中的冗余信息去掉,找到我們關(guān)注的語音特征信息,是一個(gè)減小數(shù)據(jù)量的過程。從說話人語音信號(hào)中提取的特征參數(shù)應(yīng)滿足以下準(zhǔn)則:對(duì)外部條件具有魯棒性(如:說話人的健康狀況和情緒,方言和別人模仿等);能夠長期地保持穩(wěn)定;易于從語音信號(hào)中進(jìn)行提??;與其他特征不相關(guān)。
2.3.2 典型聲紋特征參數(shù)提取算法
聲紋特征參數(shù)主要有以下幾種:基音周期、短時(shí)過零率、線性預(yù)測(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC)、以及經(jīng)過噪聲譜減或者信道譜減的去噪倒譜系數(shù)等,每一種特征參數(shù)都有其相應(yīng)的提取算法。在聲紋特征提取這一點(diǎn),本文將采用基音周期和Mel頻率倒譜混合的參數(shù)作為特征參數(shù)。
2.3.2.1 線性預(yù)測(LPC)方法
語音線性預(yù)測的基本思想是:利用過去的樣值對(duì)新樣值進(jìn)行預(yù)測,然后將樣值的實(shí)際值與其預(yù)測值相減得到一個(gè)誤差信號(hào),顯然誤差信號(hào)的動(dòng)態(tài)范圍遠(yuǎn)小于原始語音信號(hào)的動(dòng)態(tài)范圍,對(duì)誤差信號(hào)進(jìn)行量化編碼而達(dá)到最小,可以確定唯一的一組線性預(yù)測系數(shù)。目前主流算法有Durbin遞推算法、Levinson遞推算法、舒爾(schur)算法和個(gè)性算法[2][3]。由于LPC分析是基于全極點(diǎn)模型的假設(shè),所以它對(duì)于聲道響應(yīng)含有零點(diǎn)的清音和濁音和鼻音描述不確切。
2.3.2.2 線性預(yù)測倒譜系數(shù)(LPCC)
倒譜特征是用于說話人個(gè)性特征和說話識(shí)別人識(shí)別的最有效的特征之一。語音信號(hào)是聲道頻率特性和激勵(lì)源信號(hào)源兩者共同卷積的結(jié)果,后者對(duì)于某幀而言常帶有一定的隨機(jī)性,而說話人的個(gè)性特征很大程度上取決于說話人的發(fā)音聲道,因此要將此二者進(jìn)行有效的分離,可以通過對(duì)信號(hào)做適當(dāng)?shù)耐瑧B(tài)濾波,將相卷積的兩個(gè)部分分離。濾波的關(guān)鍵是先將卷積處理化為乘積,然后做對(duì)數(shù)處理,使之化為可分離的相加成分。線性預(yù)測倒譜系數(shù)可由LPC特征進(jìn)行推導(dǎo),基于LPC系數(shù)分析得倒譜存在一種非常簡單有效的遞推求解方法。LPCC參數(shù)比較徹底地去掉了語音產(chǎn)生過程中的激勵(lì)信息,主要反映聲道特性,只需要十幾個(gè)倒譜系數(shù)能比較好的描述語音的共振特性,計(jì)算量小,其缺點(diǎn)是對(duì)輔音的描述能力較差,抗噪聲性能也較弱。
2.3.2.3 梅爾倒譜系數(shù)(MFCC)
MFCC著眼于人耳的聽覺感知機(jī)理。因?yàn)槁牭降穆曇舻母叩团c聲音的頻率的并不成線性正比關(guān)系,Mel頻率的尺度更符合人耳的聽覺特性。用Mel濾波器組對(duì)語音信號(hào)進(jìn)行濾波和加權(quán),使語音信號(hào)更加接近于人耳聽覺感知系統(tǒng)特性,MFCC特征成為目前說話人識(shí)別和語音識(shí)別中最為廣泛的特征參數(shù)。根據(jù)倒譜計(jì)算過程,MFCC計(jì)算過程可以簡單地描為如下四個(gè)步驟:
(1)對(duì)語音信號(hào)進(jìn)行短時(shí)傅里葉變換,得到各個(gè)幀的頻譜。
(2)在Mel頻率的軸上配置L個(gè)通道的三角濾波器組,L的個(gè)數(shù)由信號(hào)的救治頻定。每一個(gè)三角濾波器中心頻率c(l)在MEL頻率軸上等間隔分配。設(shè)o(l)、h(l)分別是第L個(gè)三角濾波器的下限、中心和上限頻率,則相鄰三角形濾波器的下限、中心和上限頻率有如下關(guān)系成立:
2.3.2.4 基因周期系數(shù)
基音是指發(fā)濁音時(shí)聲帶振動(dòng)引起的周期性,而基音周期是指聲帶振動(dòng)頻率的倒數(shù),基音可以分為時(shí)域、頻域以及綜合利用信號(hào)時(shí)域頻率特性等三種提取模式,時(shí)域包括利用語音信號(hào)的采樣點(diǎn)計(jì)算信號(hào)的波峰、波谷和過零率等,典型的方法是Gold和Rabiner提出的并行處理方式;頻域的方法主要是計(jì)算信號(hào)的自相關(guān)函數(shù)、功率譜和最大似然函數(shù)等,其精度要高于時(shí)域方法,典型的方法是有中央消波自相關(guān)法、平均幅度差分函數(shù)法和倒譜法等。本文章選用倒譜法進(jìn)行基因周期的提取。
1)倒譜法原理
語音信號(hào)是激勵(lì)源與聲道相應(yīng)相卷積的結(jié)果,而“倒譜特征”則是利用了對(duì)語音信號(hào)進(jìn)行適當(dāng)?shù)耐瑧B(tài)濾波后,可將激勵(lì)信號(hào)與聲道信號(hào)加以分離的原理。倒譜中維數(shù)較低的分量對(duì)應(yīng)于語音信號(hào)的聲道分量,倒譜中維數(shù)較高的分量對(duì)應(yīng)于語音信號(hào)的音源激勵(lì)信號(hào)。因此,利用語音信號(hào)倒譜可將它們分離,彼此基本上互不干擾,并可以避免聲道分量受到隨機(jī)變化的音源激勵(lì)分量的干擾。
可見,倒譜域中基音信息與聲道信息可認(rèn)為相對(duì)分離的。采取簡單的倒譜法可以分離并恢復(fù)e(n)和v(n),根據(jù)激勵(lì)e(n)及倒譜的特征可以求出基音周期。然而,反應(yīng)基音信息的倒譜峰在含過渡音和噪語音中將會(huì)變得不清晰甚至完全消失。原因主要是因?yàn)檫^渡音中周期激勵(lì)信號(hào)能量降低和類噪激勵(lì)信號(hào)干擾或含噪語音中的噪聲干擾所致。這里可以采用一個(gè)簡單的方法,就是在倒譜分析中,直接將傅里葉變換之前的(IFT)頻域信號(hào)(由原始作FT逆變換再取對(duì)數(shù)后得到)的高頻分量置零。可以實(shí)現(xiàn)類似于低通濾波器的處理,濾去噪音和激勵(lì)源中的高頻分量,減少了噪聲干擾。圖2是一種改進(jìn)的倒譜基音檢測的算法框圖。
2.4 聲紋識(shí)別技術(shù)
2.4.1 概述
聲紋識(shí)別的基本原理是為了每個(gè)說話人建立一個(gè)能夠描述這一說話人特征的模型,以其作為這一說話人的個(gè)性特征。在目前的話音特征與說話人個(gè)性特征還未很好的從語音特征中得到分離情況下,為每個(gè)說話者建立的說話人模型實(shí)際上是說話人的語音特征得模型。為對(duì)說話人個(gè)性特征描述的一致起見,構(gòu)造一個(gè)通用的模型,常將每個(gè)說話人的模型結(jié)構(gòu)取得相同,不同的只是模型中的參數(shù),通過用訓(xùn)練語音對(duì)模型進(jìn)訓(xùn)練得到。
2.4.2 典型的聲紋識(shí)別算法
目前說話人識(shí)別模型主要有DTW(動(dòng)態(tài)時(shí)間規(guī)劃),VQ(矢量量化),GMM(高斯混合模型),HMM(隱馬爾科夫模型),NN(神經(jīng)元網(wǎng)絡(luò)),SVM(支持向量機(jī))等。本文用到GMM(高斯混合模型),所以后面會(huì)對(duì)其算法進(jìn)行了詳細(xì)的描述。
2.4.2.1 動(dòng)態(tài)時(shí)間規(guī)劃(DTW)
說話人信息既有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習(xí)慣),也有時(shí)變因素(語速、語調(diào)、重音和韻律)。將模式識(shí)別與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測定得出兩模板間的相似程度。常用方法是基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)劃DTW,但DTW只對(duì)孤立詞識(shí)別性能較好,并且高度依賴于定時(shí),目前應(yīng)用不廣。
2.4.2.2 矢量量化方法(VQ)
矢量量化是一種極其重要的信號(hào)壓縮方法,它廣泛應(yīng)用于語音編碼、語音識(shí)別與合成、說話人識(shí)別、圖像壓縮等領(lǐng)域,基于非參數(shù)模型的VQ的方法是目前自動(dòng)話說人識(shí)別的主要方法之一。完成VQ說話人識(shí)別系統(tǒng)有兩個(gè)步驟:(1)利用說話人的訓(xùn)練語音,建立參考模型碼本。(2)對(duì)待識(shí)別說話者的語音的每一幀和碼本之間進(jìn)行匹配。由于VQ碼本保存了說話人個(gè)性特征,這樣我們就可以利用VQ法進(jìn)行說話人識(shí)別。在VQ法中模型匹配不依賴于參數(shù)的時(shí)間順序,因此匹配過程中無需采用DTW技術(shù);而且這種方法比應(yīng)用DTW方法的參考模型儲(chǔ)量小,即碼本碼字小。
用矢量量化方法建立識(shí)別模型,既可以大大減少數(shù)據(jù)存儲(chǔ)量,又可以避開困難語音分段問題和時(shí)間規(guī)整問題。但是每個(gè)說話人的碼本只是描述了這一說話人的語音特征在特征空間中的聚類中心的統(tǒng)計(jì)分布情況。在訓(xùn)練階段為了充分反映說話人的個(gè)性特征要求訓(xùn)練語音足夠長;在識(shí)別時(shí)為了使測試語音的特征矢量在特征空間中的分布能夠與相應(yīng)的說話人碼本相吻合,所以同樣要求有足夠長的測試語音,在測試語音很短的情況下,這種方法的識(shí)別率將會(huì)急劇下降。
2.4.2.3 隱馬爾科夫模型
HMM模型是馬爾科夫鏈的推廣,隱馬爾科夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機(jī)模型。它把語音看成由可觀察到的符號(hào)序列組成的隨機(jī)過程,符號(hào)序列則是發(fā)聲系統(tǒng)序列的輸出。在HMM中,觀察到的事件與狀態(tài)通過一組概率分布相聯(lián)系,是一個(gè)雙重隨機(jī)過程,其中一個(gè)是Markov鏈,他它描述了狀態(tài)之間的轉(zhuǎn)移;另一個(gè)隨機(jī)過程描述狀態(tài)和觀察值之間的統(tǒng)計(jì)響應(yīng)關(guān)系。HMM模型的狀態(tài)是隱含的,可以觀察到的的是狀態(tài)產(chǎn)生的觀察值,因此稱為隱馬爾科夫模型(HMM)。HMM模型同樣廣泛用于與文本相關(guān)的說話人識(shí)別中,并且比傳統(tǒng)的方法有著更好的性能。HMM不需要時(shí)間規(guī)整,可節(jié)約判決時(shí)計(jì)算時(shí)間和存儲(chǔ)量,在目前被廣泛應(yīng)用。缺點(diǎn)是訓(xùn)練時(shí)計(jì)算量大。
2.4.2.4 基于支持向量機(jī)(SVM)的方法
SVM是Vapnik提出的一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化二元分類器,通過非線性變換將原始集合映射到高維空間,轉(zhuǎn)化為某個(gè)高維中的線性問題,尋找最優(yōu)分類面,具有很好的泛化和分類能力,在手寫/文字識(shí)別、文本分類和人臉識(shí)別等模式領(lǐng)域中取到成功的應(yīng)用[4]。SVM實(shí)際上是一種辨別模式,一般情況下它只能辨別兩類數(shù)據(jù),因此需要正反兩類數(shù)據(jù)進(jìn)行訓(xùn)練。因此SVM要在說話人識(shí)別中應(yīng)用,必須要解決多類分類問題。解決說話人識(shí)別的多分類問題的主要有三種形式[4]:
1)為每個(gè)人建立一個(gè)SVM,訓(xùn)練數(shù)據(jù)由目標(biāo)說話人和背景說話人的語音分別構(gòu)成“+”、“??﹣”數(shù)。
2)為每一對(duì)說話人建立一個(gè)SVM,由N個(gè)人則建立N*(N-1)/2個(gè)SVM。
3)決策樹分類:決策樹上每個(gè)節(jié)點(diǎn)將多個(gè)說話人分為兩個(gè)子集,或者是一個(gè)說話人(葉節(jié)點(diǎn))。
關(guān)鍵詞: 圖像特征; 支持向量機(jī); 模擬退火算法; 交通標(biāo)志識(shí)別
中圖分類號(hào): TN911?34; TP391.41 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)08?0097?03
Traffic sign recognition based on image feature and improved support
vector machine algorithm
HAO Yongjie1, ZHOU Bowen2
(1. Hohhot Vocational College, Hohhot 010051, China; 2. College of Management and Economics, Tianjin University, Tianjin 300072, China)
Abstract: A traffic sign recognition method based on image feature and improved support vector machine (SVM) algorithm is studied in this paper. The color feature and shape feature are used to extract the image feature of the traffic sign. The Gabor filtering method is adopted to perform the enhancement processing of the traffic sign image. Since the accuracy of the recognition algorithm based on SVM is affected by the basic parameters to a great extent, and the parameters are selected according to the experience usually, the simulated annealing algorithm is used to select the parameters of the support vector machine optimally. The research results show that the detection accuracy of the traffic sign detection method is higher than that of the other three methods, and the detection accuracy of color and shape features extraction method is higher than that of the single color feature extraction method or shape feature extraction method.
Keywords: image feature; SVM; simulated annealing algorithm; traffic sign recognition
交通安全題以及道路通信能力不足問題越來越嚴(yán)重,人們開始重視如何提升道路交通的安全性及有效性,車輛安全輔助駕駛能夠?qū)⒌缆沸畔?、車輛信息以及駕駛員信息聯(lián)系起來,駕駛員在其輔助下能夠?qū)π熊嚟h(huán)境進(jìn)行感知,進(jìn)而達(dá)到識(shí)別和監(jiān)測道路信息的目的[1?2]。作為高級(jí)輔助系統(tǒng)的重要部分,交通標(biāo)志識(shí)別系統(tǒng)能夠有效地提升駕車的舒適性以及安全性。利用該系統(tǒng),能夠采集自然場景圖像,經(jīng)過圖像識(shí)別和處理以后就可以檢測交通標(biāo)志,進(jìn)而及時(shí)警告、指示以及提醒駕駛員[3?4]。
1 基于圖像特征的交通標(biāo)志檢測特征提取
1.1 基于顏色的交通標(biāo)志特征
不同的交通標(biāo)志在顏色上存在著較大的差距,因此在分割交通標(biāo)志圖像的過程中通常以顏色為基礎(chǔ)來分離抽取交通標(biāo)志[5?6]。色調(diào)V、飽和度S以及色度H三個(gè)分量組成了HSV 顏色空間,作為三原色RGB空間的一種非線性變換,HSV顏色空間模型和圓柱坐標(biāo)系的一個(gè)圓錐形子集是相互對(duì)應(yīng)的,實(shí)現(xiàn)RGB顏色空間和HSV空間之間的轉(zhuǎn)換[7]如下:
(1)
(2)
(3)
1.2 基于形狀的交通標(biāo)志特征
利用顏色抽取的方法能夠在實(shí)景圖中提取交通標(biāo)志區(qū)域。然而由于在背景上自然場景和交通標(biāo)志均比較復(fù)雜,如果僅僅依靠顏色無法獲得較為精確的判定結(jié)果。但是這種方法能夠?qū)⒛切╊伾容^類似的背景排除掉,主要是因?yàn)檫@些復(fù)雜背景和交通標(biāo)志的特殊形狀存在著一定的差距[8]。矩形、三角形以及圓形為交通標(biāo)志的三種主要類型,當(dāng)交通標(biāo)志不同時(shí)其屬性也存在著一定的差距,例如執(zhí)行到邊緣的距離、伸長度、矩形度以及圓形度等。圓形度、矩形度以及伸長度計(jì)算方法如下[9]:
(4)
(5)
(6)
1.3 Gabor濾波
Gabor 濾波首先對(duì)核函數(shù)模板進(jìn)行確定,然后對(duì)圖像進(jìn)行卷積操作。Gabor 濾波函數(shù)乘以復(fù)指數(shù)振蕩函數(shù)就是所對(duì)應(yīng)的沖激響應(yīng)。本文在提取特征向量時(shí)采用Gabor濾波法,所對(duì)應(yīng)的核函數(shù)[10]如下:
(7)
2 改進(jìn)支持向量機(jī)模型
相比于神經(jīng)網(wǎng)絡(luò),支持向量機(jī)不需要太多的訓(xùn)練樣本,同時(shí)對(duì)于凸優(yōu)化問題支持向量機(jī)能夠有效的解決,當(dāng)參數(shù)和樣本一致時(shí),訓(xùn)練模型所得到的預(yù)測值就不會(huì)產(chǎn)生變化,因此在實(shí)際應(yīng)用和理論中都比神經(jīng)網(wǎng)絡(luò)模型具有更高的性能。
但是在應(yīng)用的過程中支持向量機(jī)需要依靠經(jīng)驗(yàn)對(duì)學(xué)習(xí)參數(shù)進(jìn)行選取。比如懲罰因子C和ε等,支持向量機(jī)的精度在很大程度上受到這些參數(shù)的影響,通常根據(jù)經(jīng)驗(yàn)來進(jìn)行參數(shù)的選取,這對(duì)于支持向量機(jī)模型的使用和推廣是不利的。因此本文使用模擬退火算法對(duì)支持向量機(jī)的參數(shù)進(jìn)行優(yōu)化選擇。
支持向量機(jī)的思想是利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化思想以及構(gòu)造損失函數(shù)的思想,以統(tǒng)計(jì)學(xué)理論為基礎(chǔ),通過極小化目標(biāo)函數(shù)就可以對(duì)回歸函數(shù)進(jìn)行確定,如下[11]:
(8)
將上述問題轉(zhuǎn)化為對(duì)偶問題:
(9)
解出上述問題即為支持向量機(jī)的回歸函數(shù):
(10)
作為一種隨機(jī)尋優(yōu)算法,模擬退火算法是以蒙特卡羅迭代求解策略為基礎(chǔ)的,其基本原理和物理上的金屬退火比較類似。使用模擬退火算法對(duì)支持向量機(jī)的參數(shù)進(jìn)行優(yōu)化選擇,主要過程如下:
步驟1:初始化參數(shù)。設(shè)定支持向量機(jī)中的ε,C和σ參數(shù)的初始范圍。
步驟2:使用模擬退火算法對(duì)支持向量機(jī)的參數(shù)進(jìn)行優(yōu)化選擇。
步驟3:更新最優(yōu)解。如果,則使,,;否則使。
步驟4:抽樣穩(wěn)定性判別。如果,則使,并返回步驟2;否則使。
步驟5:終止退火判別。如果,則使,否則使。如果,則終止退火算法,否則繼續(xù)向下進(jìn)行。
步驟6:退火方案。如果,則按照方式進(jìn)行退火;否則按照方式進(jìn)行退火。
在利用SA對(duì)SVM參數(shù)進(jìn)行確定的過程中能夠記憶性地進(jìn)行參數(shù)的選取,可以存儲(chǔ)當(dāng)前進(jìn)化所得到的最優(yōu)參數(shù),保證可以根據(jù)記憶調(diào)整參數(shù)的選擇過程;同時(shí)利用SA算法能夠調(diào)整所選取的參數(shù),避免出現(xiàn)局部最小的情況,對(duì)于逼近系統(tǒng)的精度以及參數(shù)選擇學(xué)習(xí)速度的提升有非常好的效果[12]。
3 交通標(biāo)志識(shí)別實(shí)例分析
通過交通標(biāo)志識(shí)別實(shí)例對(duì)本文研究的識(shí)別方法進(jìn)行驗(yàn)證分析。通^實(shí)地考察,拍攝了500幅包括826個(gè)交通標(biāo)志的圖像,用于實(shí)例分析,部分標(biāo)志圖像如圖1所示。
本文以文獻(xiàn)[13]中研究的圖像特征檢測方法為例進(jìn)行對(duì)比分析。使用本文研究的圖像特征檢測方法得到的圖像處理結(jié)果和使用文獻(xiàn)[13]中研究的圖像特征檢測方法得到的圖像處理結(jié)果如圖2所示。
對(duì)比本文和文獻(xiàn)[13]中的特征檢測方法可以看出,本文研究的方法處理后圖像中雜點(diǎn)更少,更利于圖像的分類識(shí)別。另外,由于文獻(xiàn)[13]中的特征檢測方法使用計(jì)算圖像均值處理,因此特征檢測效率相對(duì)更低。
下面對(duì)交通標(biāo)志識(shí)別準(zhǔn)確率進(jìn)行分析。使用多種圖像特征檢測方法和圖像分類模型進(jìn)行組合:本文研究的使用顏色和形狀特征提取,改進(jìn)支持向量機(jī)進(jìn)行圖像分類,稱方法A;使用顏色和形狀特征提取,常規(guī)支持向量機(jī)進(jìn)行圖像分類,稱方法B;使用顏色特征提取,改進(jìn)支持向量機(jī)進(jìn)行圖像分類,稱方法C;使用形狀特征提取,改進(jìn)支持向量機(jī)進(jìn)行圖像分類[14],稱方法D。
使用上述四種方法針對(duì)拍攝的826個(gè)交通標(biāo)志的圖像進(jìn)行識(shí)別,對(duì)比結(jié)果如表1所示。
表1 四種算法的識(shí)別結(jié)果對(duì)比
可以看出使用本文研究的交通標(biāo)志檢測方法的檢測精度高于其他三種方法。使用顏色和形狀特征提取的檢測精度要高于單獨(dú)使用顏色或形狀特征提取方法。
4 結(jié) 論
交通標(biāo)志識(shí)別系統(tǒng)能夠有效地提升駕車的舒適性以及安全性。交通標(biāo)志識(shí)別系統(tǒng)能夠采集自然場景圖像,經(jīng)過圖像識(shí)別和處理以后就可以檢測交通標(biāo)志,進(jìn)而及時(shí)警告、指示以及提醒駕駛員。本文研究一種基于顏色和形狀特征以及改進(jìn)支持向量機(jī)算法的交通標(biāo)志識(shí)別方法,并通過實(shí)例對(duì)所研究的交通標(biāo)志識(shí)別方法的可行性進(jìn)行了驗(yàn)證。
參考文獻(xiàn)
[1] 王剛毅.交通標(biāo)志檢測與分類算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.
[2] 宋婀娜,房俊杰,李娜,等.一種基于局部特征的交通標(biāo)志檢測算法的研究[J].現(xiàn)代電子技術(shù),2015,38(13):114?116.
[3] 楊正帥.基于視覺的道路識(shí)別技術(shù)在移動(dòng)機(jī)器人導(dǎo)航中的應(yīng)用研究[D].南京:南京理工大學(xué),2007.
[4] 王忠.基于視覺的道路識(shí)別技術(shù)在智能小車導(dǎo)航中的應(yīng)用研究[D].南京:東南大學(xué),2006.
[5] 陳樸.模擬退火支持向量機(jī)算法研究及在電力負(fù)荷預(yù)測中的應(yīng)用[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.
[6] 陳亦欣,葉鋒,肖鋒,等.基于HSV空間和形狀特征的交通標(biāo)志檢測識(shí)別研究[J].江漢大學(xué)學(xué)報(bào)(自然科學(xué)版),2016(2):119?125.
[7] 王洋.一種基于模板匹配的交通標(biāo)志識(shí)別方法[D].長春:吉林大學(xué),2013.
[8] 盧艷君.交通標(biāo)志自動(dòng)檢測與識(shí)別算法研究[D].武漢:武漢科技大學(xué),2015.
[9] 鮑朝前.針對(duì)圓形和三角形交通標(biāo)志的檢測與識(shí)別[D].北京:北京工業(yè)大學(xué),2015.
[10] 周欣.圓形和三角形交通標(biāo)志分割與識(shí)別算法研究[D].上海:華東理工大學(xué),2013.
[11] 李瑾,劉金朋,王建軍.采用支持向量機(jī)和模擬退火算法的中長期負(fù)荷預(yù)測方法[J].中國電機(jī)工程學(xué)報(bào),2011(16):63?66.
[12] 張震,徐子怡,袁淑芳.基于支持向量機(jī)和模擬退火算法對(duì)供暖熱負(fù)荷的預(yù)測方法[J].自動(dòng)化技術(shù)與應(yīng)用,2016(2):10?14.