首頁 > 文章中心 > 卷積神經網絡的定義

      卷積神經網絡的定義

      前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經網絡的定義范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。

      卷積神經網絡的定義

      卷積神經網絡的定義范文第1篇

      過去10年,人們對機器學習的興趣激增。幾乎每天,你都可以在各種各樣的計算機科學課程、行業會議、華爾街日報等等看到有關機器學習的討論。在所有關于機器學習的討論中,許多人把機器學習能做的事情和他們希望機器學習做的事情混為一談。從根本上講,機器學習是使用算法從原始數據中提取信息,并在某種類型的模型中表示這些信息。我們使用這個模型來推斷還沒有建模的其他數據。

      神經網絡是機器學習的一種模型,它們至少有50年歷史了。神經網絡的基本單元是節點(node),基本上是受哺乳動物大腦中的生物神經元啟發。神經元之間的連接也以生物的大腦為模型,這些連接隨著時間的推移而發展的方式是為“訓練”。

      在20世紀80年代中期和90年代初期,許多重要的架構進步都是在神經網絡進行的。然而,為了得到好的結果需要大量時間和數據,這阻礙了神經網絡的采用,因而人們的興趣也減少了。在21世紀初,計算能力呈指數級增長,計算技術出現了“寒武紀大爆發”。在這個10年的爆炸式的計算增長中,深度學習成為這個領域的重要的競爭者,贏得了許多重要的機器學習競賽。直到2017年,這種興趣也還沒有冷卻下來;今天,我們看到一說機器學習,就不得不提深度學習。

      作者本人也注冊了Udacity的“Deep Learning”課程,這門課很好地介紹了深度學習的動機,以及從TensorFlow的復雜和/或大規模的數據集中學習的智能系統的設計。在課程項目中,我使用并開發了用于圖像識別的卷積神經網絡,用于自然語言處理的嵌入式神經網絡,以及使用循環神經網絡/長短期記憶的字符級文本生成。

      本文中,作者總結了10個強大的深度學習方法,這是AI工程師可以應用于他們的機器學習問題的。首先,下面這張圖直觀地說明了人工智能、機器學習和深度學習三者之間的關系。

      人工智能的領域很廣泛,深度學習是機器學習領域的一個子集,機器學習又是人工智能的一個子領域。將深度學習網絡與“經典的”前饋式多層網絡區分開來的因素如下:

      比以前的網絡有更多的神經元更復雜的連接層的方法用于訓練網絡的計算機能力的“寒武紀大爆炸”自動特征提取

      這里說的“更多的神經元”時,是指神經元的數量在逐年增加,以表達更復雜的模型。層(layers)也從多層網絡中的每一層都完全連接,到在卷積神經網絡中層之間連接局部的神經元,再到在循環神經網絡中與同一神經元的循環連接(recurrent connections)。

      深度學習可以被定義為具有大量參數和層的神經網絡,包括以下四種基本網絡結構:

      無監督預訓練網絡卷積神經網絡循環神經網絡遞歸神經網絡

      在本文中,主要介紹后三種架構。基本上,卷積神經網絡(CNN)是一個標準的神經網絡,通過共享的權重在空間中擴展。CNN設計用于通過內部的卷積來識別圖像,它可以看到圖像中待識別的物體的邊緣。循環神經網絡(RNN)被設計用于識別序列,例如語音信號或文本。它的內部有循環,這意味著網絡上有短的記憶。遞歸神經網絡更像是一個層級網絡,在這個網絡中,輸入必須以一種樹的方式進行分層處理。下面的10種方法可以應用于所有這些架構。

      1.反向傳播

      反向傳播(Back-prop)是一種計算函數偏導數(或梯度)的方法,具有函數構成的形式(就像神經網絡中)。當使用基于梯度的方法(梯度下降只是方法之一)解決優化問題時,你需要在每次迭代中計算函數梯度。

      對于神經網絡,目標函數具有組合的形式。如何計算梯度呢?有兩種常用的方法:(i)解析微分(Analytic differentiation)。你已經知道函數的形式,只需要用鏈式法則(基本微積分)來計算導數。(ii)利用有限差分進行近似微分。這種方法在計算上很昂貴,因為函數值的數量是O(N),N指代參數的數量。不過,有限差分通常用于在調試時驗證back-prop實現。

      2.隨機梯度下降法

      一種直觀理解梯度下降的方法是想象一條河流從山頂流下的路徑。梯度下降的目標正是河流努力達到的目標——即,到達最底端(山腳)。

      現在,如果山的地形是這樣的,在到達最終目的地之前,河流不會完全停下來(這是山腳的最低點,那么這就是我們想要的理想情況。)在機器學習中,相當從初始點(山頂)開始,我們找到了解決方案的全局最小(或最佳)解。然而,可能因為地形的性質迫使河流的路徑出現幾個坑,這可能迫使河流陷入困境。在機器學習術語中,這些坑被稱為局部極小值,這是不可取的。有很多方法可以解決這個問題。

      因此,梯度下降很容易被困在局部極小值,這取決于地形的性質(用ML的術語來說是函數的性質)。但是,當你有一種特殊的地形時(形狀像一個碗,用ML的術語來說,叫做凸函數),算法總是保證能找到最優解。凸函數對ML的優化來說總是好事,取決于函數的初始值,你可能會以不同的路徑結束。同樣地,取決于河流的速度(即,梯度下降算法的學習速率或步長),你可能以不同的方式到達最終目的地。這兩個標準都會影響到你是否陷入坑里(局部極小值)。

      3.學習率衰減

      根據隨機梯度下降的優化過程調整學習率(learning rate)可以提高性能并減少訓練時間。有時這被稱為學習率退火(learning rate annealing)或自適應學習率(adaptive learning rates)。訓練過程中最簡單,也是最常用的學習率適應是隨著時間的推移而降低學習度。在訓練過程開始時使用較大學習率具有進行大的改變的好處,然后降低學習率,使得后續對權重的訓練更新更小。這具有早期快速學習好權重,后面進行微調的效果。

      兩種常用且易于使用的學習率衰減方法如下:

      逐步降低學習率。在特定的時間點較大地降低學習率。

      4?. Dropout

      具有大量參數的深度神經網絡是非常強大的機器學習系統。然而,過擬合在這樣的網絡中是一個嚴重的問題。大型網絡的使用也很緩慢,這使得在測試時將許多不同的大型神經網絡的預測結合起來變得困難。Dropout是解決這個問題的一種方法。

      Dropout的關鍵想法是在訓練過程中隨機地從神經網絡中把一些units(以及它們的連接)從神經網絡中刪除。這樣可以防止單元過度適應。在訓練過程中,從一個指數級的不同的“稀疏”網絡中刪除一些樣本。在測試時,通過簡單地使用一個具有較小權重的單一網絡,可以很容易地估計所有這些“變瘦”了的網絡的平均預測效果。這顯著減少了過擬合,相比其他正則化方法有了很大改進。研究表明,在視覺、語音識別、文檔分類和計算生物學等監督學習任務中,神經網絡的表現有所提高,在許多基準數據集上獲得了state-of-the-art的結果。

      5. Max Pooling

      最大池化(Max pooling)是一個基于樣本的離散化過程。目標是對輸入表示(圖像,隱藏層輸出矩陣等)進行下采樣,降低其維度,并允許對包含在分區域中的特征進行假設。

      這在一定程度上是為了通過提供一種抽象的表示形式來幫助過擬合。同時,它通過減少學習的參數數量,并為內部表示提供基本的平移不變性(translation invariance),從而減少計算成本。最大池化是通過將一個最大過濾器應用于通常不重疊的初始表示的子區域來完成的。

      6.批量歸一化

      當然,包括深度網絡在內的神經網絡需要仔細調整權重初始化和學習參數。而批量標準化有助于實現這一點。

      權重問題:無論權重的初始化如何,是隨機的也好是經驗性的選擇也罷,都距離學習到的權重很遙遠。考慮一個小批量(mini batch),在最初時,在所需的特征激活方面將會有許多異常值。

      深度神經網絡本身是有缺陷的,初始層中一個微小的擾動,就會導致后面層巨大的變化。在反向傳播過程中,這些現象會導致對梯度的分散,這意味著在學習權重以產生所需輸出之前,梯度必須補償異常值,而這將導致需要額外的時間才能收斂。

      批量歸一化將梯度從分散規范化到正常值,并在小批量范圍內向共同目標(通過歸一化)流動。

      學習率問題:一般來說,學習率保持較低,只有一小部分的梯度校正權重,原因是異常激活的梯度不應影響學習的激活。通過批量歸一化,減少異常激活,因此可以使用更高的學習率來加速學習過程。

      7.長短時記憶

      LSTM網絡在以下三個方面與RNN的神經元不同:

      能夠決定何時讓輸入進入神經元;能夠決定何時記住上一個時間步中計算的內容;能夠決定何時讓輸出傳遞到下一個時間步長。

      LSTM的優點在于它根據當前的輸入本身來決定所有這些。所以,你看下面的圖表:

      當前時間標記處的輸入信號x(t)決定所有上述3點。輸入門從點1接收決策,遺忘門從點2接收決策,輸出門在點3接收決策,單獨的輸入能夠完成所有這三個決定。這受到我們的大腦如何工作的啟發,并且可以基于輸入來處理突然的上下文/場景切換。

      8. Skip-gram

      詞嵌入模型的目標是為每個詞匯項學習一個高維密集表示,其中嵌入向量之間的相似性顯示了相應詞之間的語義或句法相似性。Skip-gram是學習單詞嵌入算法的模型。

      Skip-gram模型(以及許多其他的詞語嵌入模型)的主要思想是:如果兩個詞匯項(vocabulary term)共享的上下文相似,那么這兩個詞匯項就相似。

      換句話說,假設你有一個句子,比如“貓是哺乳動物”。如果你用“狗”去替換“貓”,這個句子仍然是一個有意義的句子。因此在這個例子中,“狗”和“貓”可以共享相同的上下文(即“是哺乳動物”)。

      基于上述假設,你可以考慮一個上下文窗口(context window,一個包含k個連續項的窗口),然后你跳過其中一個單詞,試著去學習一個能夠得到除跳過項外所有項的神經網絡,并預測跳過的項是什么。如果兩個詞在一個大語料庫中反復共享相似的語境,則這些詞的嵌入向量將具有相近的向量。

      9.連續詞袋(Continuous Bag Of Words)

      在自然語言處理問題中,我們希望學習將文檔中的每個單詞表示為一個數字向量,使得出現在相似的上下文中的單詞具有彼此接近的向量。在連續的單詞模型中,我們的目標是能夠使用圍繞特定單詞的上下文并預測特定單詞。

      我們通過在一個龐大的語料庫中抽取大量的句子來做到這一點,每當我們看到一個單詞時,我們就會提取它周圍的單詞。然后,我們將上下文單詞輸入到一個神經網絡,并預測位于這個上下文中心的單詞。

      當我們有成千上萬的這樣的上下文單詞和中心詞以后,我們就有了一個神經網絡數據集的實例。訓練神經網絡,最后編碼的隱藏層輸出表示特定單詞的嵌入。而當我們對大量的句子進行訓練時也能發現,類似語境中的單詞得到的是相似的向量。

      10.遷移學習

      卷積神經網絡的定義范文第2篇

      關鍵詞 人臉識別;Gabor小波;小波網絡;神經網絡;特征抽取

      中圖分類號TP39 文獻標識碼A 文章編號 1674-6708(2012)58-0183-02

      0 引言

      隨著信息技術的發展,人臉識別因在公安、身份驗證、安全驗證系統、醫學、考勤系統等各方面的巨大應用前景而成為當前人工智能和模式識別領域的研究熱點。人臉識別是指利用攝像頭捕捉人的面部圖片,利用計算機分析比較人臉的生物特征來進行身份識別。雖然人類能夠輕易識別出人臉和表情,但是人臉機器識別卻是一個難度極大的課題[1]。

      基于Gabor小波彈性圖匹配算法作為一種有效的人臉識別方法,雖然方法簡單,但是實現復雜、計算量大、耗時多,本文提出了一種改進的基于局部特征Gabor小波的BP神經網絡方法,此方法避免了彈性如匹配算法的高計算量,神經網絡由于學習和記憶能力,提高了算法容錯性。本文采用Gabor小波特征空間作為神經網絡輸入空間,然后使用神經網絡作為分類器。

      1 基于局部特征的Gabor小波

      1.1 Gabor濾波器數組

      二維圖像的離散Gabor 變換的定義見文獻[4],對特征點圖像模板進行離散Gabor 變換的Gabor核函數如下:

      式中參數描述三角函數的波長,參數描述小波的方向性。依David S. Bolme 的取值對人臉圖像的處理間隔4 個像素,即分別取{4 , ,8, , 16};對的取值從0到π的區間分別取{0 ,π/ 8 ,2π/ 8 ,3π/ 8 ,4π/ 8 ,5π/ 8 ,6π/ 8 ,7π/ 8}共8個方向,π到2π區間的方向性由于小波的奇偶對稱性而省去。參數描述三角函數的相角,取∈{ 0 , π/2} ;參數描述高斯半徑,取=;參數描述高斯的方向角,選取=1 ;這樣通過選取一系列的5個不同的和8個方向的,就可以得到40個二維的復數離散Gabor濾波器組。

      1.2 Gabor小波特征值

      GaborJet是根據特征點的位置坐標(xn,yn),對特征點作Gabor變換得到的。具體方法是對每一個特征點,以(xn,yn)為中心提取該特征點周圍的正方形圖像區域的圖像灰度信息,然后通過該圖像區域與特定波長、方向的2D Gabor濾波器卷積,從而得到該特征點的頻率信息等。

      2 改進的BP神經網絡

      1988年,Rumelhart、Hinion和Williams提出了用于前向神經網絡學習訓練的誤差反向傳播算法(Error Back Propagation,EBP,簡稱BP),成功地解決了多層網絡中隱含層神經連接權值的學習問題[2]。

      BP神經網絡訓練過程即學習過程:神經網絡在外界輸入樣本的刺激下不斷改變網絡的連接權值,以使網絡的輸出不斷地接近期望的輸出。學習的本質是對各連接權值的動態調整,令輸出結果達到預期目標。學習規則是在學習過程中網絡中各神經元的連接權變化所依據的一定的調整規則。圖1為改進BP神經網絡的模型圖。

      原始BP算法的主要缺點[3]為:收斂速度慢和可能陷入局部極值。本文對BP算法進行了改進,改進方法如下:

      1)Sigmoid函數的改進:在實驗過程中將產生較大的誤差時,S型函數的標準形式用來生成輸出的分類,并可能會出現不收斂。因此為了解決這個問題的辦法是采取 改進的S型函數如式2.1所示。k的值越大越容易收斂,但收斂速度較慢;k較小可以使得S型函數較穩定,其收斂速度快,但容易產生不穩定。經多次不同值的實驗,最終選定 k=3. 5。

      2)學習速率自調整模型:學習速率自調整的BP算法縮短了學習時間。神經網絡學習過程,即連接下層節點和上層節點之間的權重拒陣Wij的設定和誤差修正過程。BP網絡自學習方式:需要設定期望值和輸入樣本。自學習模型為:

      h 是學習因子;是輸出節點i的計算誤差;Oj是輸出節點j的計算輸出;a是動量因子。

      3 人臉識別實驗與結果分析

      采用ORL人臉數據庫,每個人臉有10幅不同細節的圖片。識別率檢測數據庫A:選擇30個人作為測試對象。取每個人的前4幅圖片共120幅圖片作為人臉數據庫。然后使用另外的180幅圖片進行測試。

      由于定位特征點位置會有一些誤差,所以在試驗階段人臉數據庫中的人臉特征點位置手工標注,這樣可以從初始階段減少誤差。人工標注圖像的各個特征點的實例如圖2所示:

      對每個特征點特區Gabor特征,存入數組作為BP神經網絡輸入。然后使用樣本進行訓練得到神經網絡分類器。當訓練完成后,采用測試圖片進行識別統計識別效率和識別時間。

      其中一組訓練和識別樣本實驗結果如表1所示。

      其中前5列是該人的訓練樣本,后5列是該人的識別樣本。由于本系統神經網絡輸出數目與數據庫中人物數一樣,所以每個人有8個輸出,每行表示測試圖片與數據庫中一個人相似度。訓練時輸出為,其中0.9表示輸出目標,訓練誤差為0.01。輸出為0.9附近就是識別目標。

      采用不同的方法系統識別率不同,或者相同方法采用不同人臉圖像庫系統識別率也會不同。根據上面實驗,表2統計了不同人臉識別算法的識別率。

      分別在PC平臺上進行測試,EBGM大約需要1s時間,而本算法只需要0.01s,大大提高了算法效率。

      4 結論

      基于EBGM與本文人臉識別算法比較,本文算法有效的解決了傳統彈性圖匹配算法計算復雜的問題,無需進行彈性圖粗匹配和精確匹配,只需要訓練,在識別時保留了Gabor小波生物特性基礎上大大提高了傳統算法實時性。在識別能力上,神經網絡具有學習分類作用,比傳統彈性圖匹配具有更高的識別率。

      參考文獻

      [1]焦峰,山世光,崔國勤,等.基于局部特征分析的人臉識別方法[J].計算機輔助設計與圖形學學報,2003,15(1).

      [2]M Riedmiiler and H Braum.A direct adaptive method for faster baek Propagation learning:The RPOP algorlthm. Proceedings of the IEEE International Coference on Neural Networks(ICNN).San Fraueisco, 1993:586-591.

      [3]Phillips P J, Moon H, Rizvi S A, et al.The FERET Evaluation Methodology for Face recongition Algorithms. IEEE Transaction on Pattern Analysis and Machine Intelligence,2000, 22(10):1090-1104.

      卷積神經網絡的定義范文第3篇

      關鍵詞:視覺注視;移動端;數據集;行為推測

      中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)01-0254-03

      Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.

      Key words: visual gaze; mobile end; data set; behavior conjecture

      1 概述

      伴S著計算機軟硬件性能和互聯網技術的迅猛發展,大規模的并行計算技術突飛猛進,不斷地發展使各種現有技術變得越來越成熟,同時機器學習和計算機視覺領域也都得到了飛速發展。視覺技術的發展變得越來越重要,并且可以應用到實際生活中的很多方面。人類大量的視覺信息現在可以利用計算機來輔助處理,并完成相關的一些工作。相對于生物信息識別技術這一計算機視覺領域的熱點技術來說,也已廣泛應用于日常生活中[1]。比如指紋識別器,人臉考勤器等平時在許多地方可以經常見到,還有居民家用的攝像頭智能報警系統以及近期炒得火熱的運用支付寶進行刷臉而完成的支付技術等,這些都是運用了生物信息識別技術。現實中的種種跡象已經表明運用生物信息識別的計算機技術已漸漸的滲透到人們的日常生活中并成為不可或缺的組成部分。時下發展較快也比較常見的生物特征有視網膜、指紋、人臉和人眼等。這些生物信息比如人臉具有個體差異性和自身穩定性特點,從用戶的角度來看該特征具有便攜和低侵入等一些優點。而人眼作為人臉中最顯著的特征,又是人們獲取外界信息最直接最方便的途徑。都說眼是心靈的窗戶,因為眼睛中蘊含著表情、意圖等多種信息。因此,眼睛注視的行為預測受到了國內外眾多學者的廣泛關注,同時在生物信息識別領域中也具有重要的研究意義[2]。

      2 注視預測問題

      2.1 問題的背景

      在心理、認知和用戶交互研究中的注視跟蹤最近已朝向移動解決方案發展,因為它們使得可以直接評估用戶在自然環境中的視覺注意。 除了注意,注視還可以提供關于用戶的動作和意圖的信息:用戶正在做什么以及接下來將做什么。然而,在自然狀態下非結構化的任務中注視行為是相當復雜的,并且不能使用在受控的實驗室環境中創建的模型來得到令人滿意的解釋。自然條件下和實驗室環境有著很大的不同。為了演化在自然環境中對注視行為的推斷,需要一種更加整體的方法,將從認知科學到機器學習的許多學科結合在一起[3]。

      從人機交互技術到醫學診斷到心理學研究再到計算機視覺,眼睛注視跟蹤在許多領域都有應用。注視是外部可觀察的人類視覺注意的指標,許多人試圖記錄它。對于眼睛視線方面的研究可以追溯到十八世紀后期。而現如今已經存在各種解決方案(其中許多是商業化的),但是所有的解決方案都具有以下一個或多個方面的問題:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在現實中的自然條件下,這些因素對實際的應用會造成一些障礙影響,使得眼睛注視跟蹤不能成為任何具有合理的相機(例如,智能手機或網絡攝像頭)的人應該可以使用的普及技術。如何才能使得這種技術普及并且得到應用,提出了一種解決方案。

      2.2問題的提出

      研究中首先要解決的就是用戶的約束問題,也就是自然條件下使用過程中所受到的各種限制問題。到目前為止,基于注視數據推斷用戶動作的研究受到許多的限制,特別是在自然環境中。限制因素可能包括可用的商業解決方案的昂貴性,其專有性和封閉性以及缺乏實時交互能力等方面。目前的注視跟蹤系統,只是盡量在移動設置中設置各種條件進行補救。商業化定制化的解決方案都有其獨自的閉合性質,因此阻礙了注視跟蹤算法的發展,并且使得不同方法之間的客觀比較變得不可能[4]。此外,注視是一種復雜的現象,涉及認知過程的相互作用。這些過程在設置計算上的建模是非常困難的,尤其是涉及一些未知因素,使得構建實驗設置成為一個很大的挑戰。此外,來自跟蹤實驗的數據因為其商業化的原因很少共享,即使共享數據很大部分也是有其獨立的實驗條件。這些方面的問題都阻礙了跨學科方法在分析和利用注視數據和實驗的相關研究與發展。

      2.3 解決問題的研究方向

      對基于注視的推斷的個體貢獻通常保持孤立,不能形成更大的整體以促進對注視動作行為的研究。隨著這方面的技術發展和應用,最近出現了一些開源的解決方案。雖然在不同的應用和用戶界面中使用注視已經相當有限,但是移動注視跟蹤的新穎應用開始出現并得到了很快的發展。然而使用移動注視跟蹤來推斷用戶動作的問題是高度多學科的,需要深入理解各個研究領域,包括人眼的功能,數學建模,計算機視覺,機器學習,信息技術,認知過程,用戶交互以及心理學。任何一個研究員或甚至任何研究小組都不可能擁有所有研究領域的專家,因此需要相互的協作共同推進技術的發展[5]。

      目前的研究主要是從以下幾個方面進行:

      1)研究移動注視跟蹤的認知方面,例如增強對任務中的注視行為的理解或識別不同任務的特征和階段;

      2)開發用于從注視數據推斷用戶動作的計算方法,諸如應用機器學習用于行為推斷,優選地實時地;

      3)增強用于改善移動注視跟蹤方法和性能的技術軟件/硬件解決方案,并使得設備更容易訪問;

      4)發現注視數據在自然環境和虛擬和增強現實應用中的潛在用途,以及定義任務,其中注視可以是用戶動作的有用的預測器。

      3 解決方案

      首先選擇移動端進行研究,因為目前比較普遍的移動設備比如智能手機、平板電腦都有自己可靠的工作系統,且不需要外部附件。移動設備相對于其他平臺具有以下優勢:

      1)使用的廣泛性。據估計,到2019年,世界上超過三分之一的人口擁有智能手機,遠遠超過臺式機/筆記本電腦用戶;

      2)軟硬件技術升級的采用率較高。大部分的移動設備具有允許使用擁有計算復雜數據方法的實時的最新軟硬件;

      3)移動設備上相機的大量使用已經導致相機技術的快速開發和部署;

      4)相機相對于屏幕的固定位置減少了未知參數的數量,潛在地允許開發高精度的校準跟蹤應用。

      3.1 注視類型分析

      注視估計方法可以分為基于模型或基于外觀[6]。基于模型的方法使用眼睛的幾何模型,并且可以被細分為基于角膜反射和基于形狀的方法。另一方面,基于形狀的方法從觀察到的眼睛形狀觀察注視方向。這些方法傾向于具有低的圖像質量和可變的照明條件。基于外觀的方法直接使用眼睛作為輸入,并可能在低分辨率圖像上工作。相比基于模型的方法,基于外觀的方法被認為需要更大量的用戶特定的訓練數據。通過使用深度學習和大規模數據不必依賴于視覺,以實現準確的無校準注視估計。這種方案提出建立一個基于外觀的數據模型,而不使用任何手工設計的功能,例如頭部姿勢或眼球中心位置。

      3.2 技術方案

      深度學習的最近成功在計算機視覺的各種領域中是顯而易見的,但是它對改善眼睛跟蹤性能的影響還是相當有限。因為深度學習是需要大量的數據作為支持,而視線追蹤這方面的數據集還比較少,普通的研究所得到的稻菁比較有限,最大的數據集通常只是具有50個受試者左右,由于缺乏大規模數據的可用性,因此發展比較緩慢。因而提出了使用深度學習進行研究的一套方案,就是構造大規模的數據集。利用網絡資源構造一個大規模的基于移動的眼動跟蹤數據集,它包含來自各種背景的大量的受試者,在可變照明條件和不受限制的頭部運動下記錄[7]。運用現有的智能算法得到一個可以進行卷積神經網絡學習端到端的注視預測的后臺決策網絡。不依賴任何預先存在的系統,不需要頭部姿態估計或其他手動設計的特征用于預測。使用只有雙眼和臉部的特征訓練網絡,在這個領域的性能優于現有的眼睛跟蹤方法。雖然現在的決策網絡在精度方面實現了很先進的性能,但是數據輸入的大小和參數的數量使得難以在移動設備上實時使用。 為了解決這個問題,需要培養學習得到一個更小更快的網絡,在移動設備上實現實時性能,使得精度損失進一步降低。

      3.3 大規模數據集

      為了達到這一方案的預測效果,首先要進行的是數據集的建立。網絡上相關的研究中有許多公開的注視數據集[8]。總結對比這些相關的數據集,分析出有些早期的數據集不包含顯著性的頭部姿勢變化或具有粗略的注視點采樣密度。需要對這些數據進行篩選,使得到的數據具有隨機分布特點。雖然一些現代數據集遵循類似的方法,但它們的規模(尤其是參與者的數量)相當有限。大多數現有的眼動追蹤數據集已經由邀請實驗室參與者的研究人員收集,這一過程導致數據缺乏變化,并且成本高且效率不高。因此需要大量的進行數據收集和篩選分析。大規模數據可以通過卷積神經網絡有效地識別人臉(他們的眼睛)上的細粒度差異,從而做出準確的預測。

      收集眼動跟蹤數據應該注意的方面:

      1)可擴展性。數據應該是自然條件下的使得用戶具有靈活性;

      2)可靠性。運用現有的智能移動設備真實的應用圖像而非設計處理過的圖像;

      3)變異性。盡量使數據具有較大的變異性,使得模型更加穩健,適應各種環境下的操作。

      4 結束語

      文章介紹了一種針對移動設備的用戶注視行為推測解決方案。首先建立一個大規模眼動跟蹤數據集,收集大量的注視數據。大型數據集的重要性,以及具有大量各種數據以能夠訓練用于眼睛跟蹤的魯棒模型。然后,訓練得到一個深層卷積神經網絡,用于預測注視。通過仔細的評估,利用深度學習可以魯棒地預測注視,達到一個較好的水平。此外,雖然眼睛跟蹤已經存在了幾個世紀,相信這種新方案的策略可以作為下一代眼動跟蹤解決方案的關鍵基準。希望能通過這方面的研究,使人機交互得到更好的發展。

      參考文獻:

      [1] 崔耀 視控人機交互系統技術研究與實現[D].西安,西安電子科技大學,2013.

      [2] 遲健男, 王志良, 張闖.視線追蹤[M].北京: 機械工業出版社, 2011.

      [3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.

      [4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/

      6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.

      [5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.

      [6] 楊彩霞.基于近紅外光源的非接觸式視線跟蹤技術研究 [D].山東:山東大學,2012.

      卷積神經網絡的定義范文第4篇

      關鍵詞:人工智能 心血管 超聲

      大數據是現代醫學模式的重要特征。在這種醫療模式下,要求醫療人員在確保患者安全和健康的同時追求效率的最大化[1]。對于高分辨率的醫學影像成像,集中體現在醫務人員快速、準確、有效地解釋影像數據(包括肉眼可見和不可見),挖掘利于診斷和治療的有用信息。在此背景下,人工智能(artificial intelligence,AI)應運而生,它為促進圖像采集、測量、報告和隨后的臨床路徑以及影像和臨床數據的整合提供了有效手段[2]。心血管影像的精確性成為AI臨床應用中的主要領域之一,本文對此作一綜述。

      1 人工智能及其在醫學上的應用

      AI是一個廣義的術語,指的是機器或計算程序執行具有人類智能特征的任務的能力,如模式識別和解決問題的能力等。AI可以通過彌補人類智能,使現有醫療診斷和預后價值最大化,同時使醫師負擔最小化,從而顯著改善健康診療過程和結果。AI在臨床實踐中的應用預示著醫學領域一個更為劇烈變化時代的到來,在影像學方面尤其如此。一項通過分析科學網數據庫的研究[3]發現,目前AI在醫學的研究領域主要集中在大數據分析、腦卒中康復、心臟手術和醫療診斷和預后預測等方面。其中,用于醫學診斷、預后預測和分類的神經網絡和支持向量機是主要熱點,占所有文獻的26%;而未來最引人關注的研究主題是基于AI的微創手術。然而,關于AI數據管理、模型可靠性、模型臨床效用驗證等問題尚未進行廣泛研究。

      2 人工智能的機器學習法

      大數據是一個經常用來描述大量收集數據的術語,如來自大型生物信息庫的基因組數據、電子健康記錄檔案和大型研究隊列數據以及影像學掃描數據等。AI系統通過識別和提取一組觀測數據(數據集)的模式來自主獲取知識的過程稱為機器學習(machine learning,ML)。ML是人工智能的一個組成部分,描述為計算機從經驗中學習的過程,并在沒有事先知識的情況下執行預定的任務[4]。機器學習可以進一步分為監督學習、半監督學習和無監督學習,這取決于用于學習的樣本是否完全標記、部分標記或未標記。ML的典型例子是人工神經網絡,后者基于人類大腦的神經元及其連接,神經元之間的相互依賴關系反映出不同的權重,每個神經元接受多個輸入,所有的輸入一起決定了神經元的激活。通過樣本訓練找到這些合適權重的過程就是學習。學習過程的復雜性和所需的樣本量隨著神經元數量的增加而增加。由于計算能力和樣本大小的限制,機器學習應用程序的成功依賴于從原始樣本中手工提取特征來減少神經元的數量。為了解決這一問題,人們提出了深度學習的方法,即自動學習代表性的樣本。深度學習是指一種特別強大的ML方法,它利用卷積神經網絡模擬人類的認知,常用于影像模式識別和分類。

      模型訓練是所有ML類型的共同過程,它是利用模型分析所提供的數據中的各種特性來學習如何生成輸出標簽的過程[5]。如在超聲心動圖中,一個模型可以分析各種特征,如左心室壁厚度和左心室射血分數,以確定患者是否具有特定的條件。然而,在分析中包含不相關的特征可能會導致模型過度擬合,從而在呈現新數據集時降低其準確性。這強調了擁有一個能夠代表總體的訓練數據集的重要性。數據集的質量對于最終ML模型的質量至關重要。盡管ML算法可以使用小數據集或大數據集進行訓練,但大數據集可以最大限度地提高訓練算法的內部和外部有效性,降低過度擬合的風險。正確模型的選擇通常取決于操作員的專業知識、數據集的性質和最終人工智能系統的目的。

      3 人工智能在心血管超聲的應用

      心血管成像領域,包括超聲心動圖、心臟計算機斷層掃描、心臟磁共振成像和核成像,具有復雜的成像技術和高容量的成像數據,處于精準心臟病學革命的前沿。然而,在基于AI的臨床轉化方法中,心血管成像一直落后于腫瘤學等其他領域。人工智能在超聲心動圖中的應用包括自動心室定量和射血分數計算、應變測量和瓣膜形態及功能評估以及ML在心臟疾病自動診斷中的應用。

      3.1 心室定量和EF自動化。

      自動心室量化和EF計算的算法旨在提供準確、快速和可重復的心尖視圖分類、解剖標志檢測、心室壁分割和心內膜跟蹤。有研究[6]比較了AI軟件自動測量(AutoEF)和手工追蹤雙平面Simpson法測量左室EF的準確性,并與心臟MRI進行了比較。結果表明AutoEF與手動雙平面Simpson法測得的EF相關性較好,且與MRI相關性良好,但AutoEF低估了左室舒張末期容積(EDV)和收縮期末期容積(ESV)。此外,在不同切面,測量的準確性存在差異,以胸骨旁長軸切面的準確性最高,達96%,而在心尖切面時整體精度降低(84%)。腔室定量和左室EF測量的中位數絕對偏差在15%~17%,其中ESV的絕對偏差最小;左房容積和左室EDV被高估。

      3.2 心肌運動和應變測量。

      Kusunose等[7]研究發現與傳統二維超聲心動圖相比,利用深度卷積神經網絡可更好的檢測區域壁運動異常并區分冠狀動脈梗死區域。Cikes等[8]利用復雜超聲心動圖數據(整個心動周期的左室容積和變形數據,而不是單個數據點)和臨床參數的ML算法識別心衰并對心臟再同步化治療的反應進行評估,證實通過整合臨床參數和全心周期成像數據,無監督的ML可以為表型異質性心力衰竭隊列提供一個有臨床意義的分類,并可能有助于優化特定治療的反應率。另有研究證實[9-10],ML算法有助于區分縮窄性心包炎、限制性心肌病以及肥厚性心肌的重塑。Zhang等[11]采用AI軟件和手工勾畫對左室心肌的縱向應變進行了比較研究。發現AI自動測量的心肌全局縱向應變與手動應變變化最小(絕對值為1.4%~1.6%)。

      3.3 心臟瓣膜評估。

      有學者[12]采用AI軟件對二尖瓣幾何形狀進行測量,測量參數包括二尖瓣環面積、瓣環高度和寬度、瓣葉連合間距、前后葉長度等。發現相對于常規超聲心動圖,所有評估的成像參數均獲得了更好的觀察者間一致性,而且所花費的時間明顯較少。Prihadi等[13]研究證實,經食管超聲心動圖AI軟件能夠精確地對主動脈瓣結構以及冠狀動脈開口進行測量和定位,且與多層螺旋CT的測量結果具有良好的相關性。

      4 展望

      在海量醫學信息和影像數字化日益積累的現代醫學時代,AI和ML為疾病診斷和風險預測等問題提供了新的解決方案。通過AI對超聲心動圖數據進行預測、建模和精確分析,可以幫助超聲醫師快速、準確地處理大量心臟超聲影像學數據,既有利于應對當前醫療信息數量的急劇增長,又有利于提高處理數據信息的能力。未來,針對AI的研究應關注超聲圖像數據特征定義及其提取方法的標準化,以確保可推廣性和可再現性,促進AI向更加個性化的醫療模式轉變。此外,AI系統與遠程醫療等軟件的集成,將使智能心臟超聲診斷系統滲透到資源消耗負擔最繁重的地區,提高經濟效益。

      參考文獻

      [1]Oikonomou EK,Siddique M,Antoniades C.Artificial intelligence in medical imaging:A radiomic guide to precision phenotyping of cardiovascular disease[J].Cardiovasc Res,2020,Feb 24;cvaa021.

      [2]Dey D,Slomka PJ,Leeson P,et al.Artificial Intelligence in Cardiovascular Imaging:JACC State-of-the-Art Review[J].J Am Coll Cardiol,2019,73(11):1317-1335.

      [3]Tran BX,Latkin CA,Vu GT,et al.The Current Research Landscape of the Application of Artificial Intelligence in Managing Cerebrovascular and Heart Diseases:A Bibliometric and Content Analysis[J].Int J Environ Res Public Health,2019,16(15):2699.

      [4]Gandhi S,Mosleh W,Shen J,et al.Automation,machine learning,and artificial intelligence in echocardiography:A brave new world[J].Echocardiography,2018,35(9):1402-1418.

      [5]Alsharqi M,Woodward WJ,Mumith JA,et al.Artificial intelligence and echocardiography[J].Echo Res Pract,2018,5(4):R115-R125.

      [6]Xu B,KocyigitD,Grimm R,et al.Applications of artificial intelligence in multimodality cardiovascular imaging:A state-of-theart review[J].Prog Cardiovasc Dis,2020,19;S0033-0620(20)30060-8.

      [7]Kusunose K,Abe T,Haga A,et al.A Deep Learning Approach for Assessment of Regional Wall Motion Abnormality From Echocardiographic Images[J].JACC Cardiovasc Imaging,2020,13(2 Pt 1):374-381.

      [8]Cikes M,Sanchez-Martinez S,Claggett B,et al.Machine learningbased phenogrouping in heart failure to identify responders to cardiac resynchronization therapy[J].Eur J Heart Fail,2019,21(1):74-85.

      [9]Narula S,Shameer K,Salem Omar AM,et al.Machine-Learning Algorithms to Automate Morphological and Functional Assessments in 2D Echocardiography[J].J Am Coll Cardiol,2016,68(21):2287-2295.

      [10]Sengupta PP,Huang YM,Bansal M,et al.Cognitive machine-learning algorithm for cardiac imaging:a pilot study for differentiating constrictive pericarditis from restrictive cardiomyopathy[J].Circ Cardiovasc Imaging 2016,9(6):e004330.

      [11]Zhang J,Gajjala S,Agrawal P,et al.Fully automated echocardiogram interpretation in clinical practice[J].Circulation,2018,138(16):1623-1635.

      卷積神經網絡的定義范文第5篇

      關鍵詞:語義標記;三維人臉;網格標記;隨機森林;正方形切平面描述符

      DOIDOI:10.11907/rjdk.171139

      中圖分類號:TP317.4

      文獻標識碼:A 文章編號:1672-7800(2017)006-0189-05

      0 引言

      在計算機視覺與圖像領域,對于二維圖像人臉的研究(包括人臉識別、人臉檢測、人臉特征點標記等)非常多,并且取得了很大進展。特別是近幾年,隨著深度學習算法的應用,對于二維人臉的研究有了極大突破[1]。然而,相對于二維人臉,人們對三維人臉研究較少。三維人臉的研究是以人臉的三維數據為基礎,結合計算機視覺和計算機圖形學,充分利用三維人臉的深度信息和其它幾何信息,解決和克服現有二維人臉研究中面臨的光照、姿態、表情等問題[3]。三維人臉模型標記與分割是將三維人臉網格模型上的頂點進行分類,將人臉劃分為幾個區域,例如眉毛、眼睛、鼻子、嘴等。對這些區域的標記與分割對三維人臉重建、特征點定位和表情動畫等方面的研究都起著重要作用。三維人臉的研究是模式識別和圖形學領域活躍且極具潛力的研究方向之一,在影視、游戲動畫、人臉識別、虛擬現實、人機交互等方面都有著廣泛應用[2-3]。

      目前,許多對三維人臉方面的研究,包括三維人臉重建、識別與跟蹤、姿態估計及特征點標記等,都是基于深度圖的方法[4-7]。Fanelli等[6-8]提出一種方法,將從深度數據估算人臉姿態表達為一個回歸問題(Regression Problem),然后利用隨機森林算法解決該問題,完成一個簡單深度特征映射到三維人臉特征點坐標、人臉旋轉角度等實值參數的學習。通過訓練數據集建立隨機森林,該數據集包括通過渲染隨機生成姿態的三維形變模型得到的5萬張640*480深度圖像。在實驗部分,對Fanelli等提出的從深度圖中提取特征的方法與本文的特征提取方法進行了對比。與文獻[6]中的方法相比,Papazov[9]提出了一個更為復雜的三角形表面patch特征,該特征是從深度圖重建成的三維點云中計算獲得的,主要包括兩部分:線下測試和線上測試。將三角形表面patch(TSP)描述符利用快速最近鄰算法(FLANN)從訓練數據中尋找最相似的表面patches。

      在計算機圖形學領域,網格理解在建立和處理三維模型中起著重要作用。為了有效地理解一個網格,網格標記是關鍵步驟,它用于鑒定網格上的每個三角形屬于哪個部分,這在網格編輯、建模和變形方面都有著重要應用。Shapira等[10]利用形狀直徑函數作為分割三維模型的一個信號,通過對該信號的計算,定義一個上下文感知的距離測量,并且發現眾多目標之間的部分相似性;隨后,Sidi等[11]提出一個半監督的聯合分割方法,利用一個預定義的特征集實現對目標的預先分割,然后將預先做好的分割嵌入到一個普通空間,通過使用擴散映射獲得最終的對網格集的聯合分割。網格標記的一個關鍵問題是建立強大的特征,從而提高各類網格模型標記結果的準確性,增加泛化能力。為了解決該問題,Kalogerakis等[12]提出采用一種基于條件隨機場算法的方法來標記網格。通過對已標記的網格進行訓練,成功地學習了不同類型的分割任務;Xie等[13]提出一種三維圖形快速分割與標記的方法,用一系列特征描述法和極端學習器來訓練一個網格標記分類的神經網絡;Guo等[14]提出用深度卷積神經網絡(CNNs)從一個大的聯合幾何特征中學習網格表示方式。這個大的聯合幾何特征首先被提取出來表示每個網格三角形,利用卷積神經網絡的卷積特征,將這些特征描述符重新組織成二維特征矩陣,作為卷積神經網絡的輸入進行訓練與學習。

      本文提出一種新的幾何特征描述符(正方形切平面描述符)來表示人臉模型上的頂點特征,利用隨機森林算法對三維人臉模型頂點進行訓練,實現對人臉模型上頂點的分類(屬于鼻子或是眼睛區域等),從而實現三維人臉模型的區域標記。這種新描述符并非從深度圖提取的簡單矩形區域特征,而是直接從三維人臉模型計算獲得,在人臉的姿勢、尺寸、分辨率的改變上具有一定魯棒性。因此,訓練過程是在三維人臉模型上執行的,這種數據相對于真實的深度圖數據更容易獲取(例如在文獻[6]中使用的訓練數據)。

      1 特征描述符與三維人臉區域分割

      1.1 正方形切平面描述符

      從一個三維人臉模型M的所有頂點上隨機選取一個種子點P,根據三維人臉模型的幾何結構,計算該種子點的法向量,此時根據一點和法向量即可確定一個切平面。確定正方形的邊長L和正方形的方向。正方形的方向(正方形局部坐標系)是根據全局坐標系下建立的正方形,通過法向量轉換而成。建立正方形局部坐標系,以便于計算三維人臉上的點到正方形的投影距離,減少程序運行時間,從而可以確定一個正方形切平面塊S。在這種情況下,根據正方形切平面塊S,可以計算出一個簡單且具有魯棒性的幾何描述符V。將正方形邊長分成K等份,正方形則細分為K2個小正方形,如圖1(a)所示。模型M上的所有點向正方形切平面塊上投影,如果投影點在正方形內,此點則肯定在K2個小正方形中的某一個正方形內,稱該點屬于該小正方形或者稱小正方形包含該點。每個小正方形的描述符是其包含所有點投影距離的平均值。考慮到人臉模型的幾何特征,有些人臉部分存在于正方形上面,有些部分則存在于正方形下面,因此每個點的投影距離有正負之分。整個正方形切平面塊的描述符V是所有小正方形描述符的簡單串聯。在實驗部分,本文將對邊長L和劃分的小正方形個數K2對分類的準確率進行對比研究。

      使用每個小正方形包含所有點的平均投影距離作為描述符,使得該描述符對噪聲、數據分解和分辨率上的變化具有魯棒性,這在實驗部分有所體現。許多三維幾何特征已經在一些文章中被提出,包括Spin Images(SI)[15]、3D shape context (SC)[16]、 SHOT[17]和MeshHOG[18-19]。這些描述法都根據局部坐標系定義并且依賴于大量的平面法向量,使噪聲數據對結果產生一定影響。和以上描述法相比,本文描述符取平均投影距離,并且正方形取的足夠大,使描述法更加簡單、有效且具有魯棒性。除三維幾何特征外,許多文章也對三維模型投影生成的深度圖進行了特征選取和處理。例如,Fanelli等[6-8]在深度圖中選取patch,然后在patch中隨機選取兩個矩形框F1、F2,如圖2所示。以像素點的深度值和幾何法向量的X、Y、Z值作為隨機森林的4個特征通道,F1和F2中所有像素點某個特征通道平均值的差值作為隨機森林每棵樹節點的二元測試。二元測試定義為:

      本文在實驗部分對上述特征選取方式與本文提出的正方形描述符在三維人臉區域標記上的結果進行了比較。

      1.2 數據庫與人臉區域分割

      訓練階段的正方形切平面描述符均取自于高分辨率的人臉網格模型,這些訓練模型由Basel Face Model (BFM)[20]生成。BFM是一個公開、可獲得的基于PCA的三維形變模型,由200個人臉對象的高分辨率三維掃描創建而成。通過從一個正態分布取樣的PCA系數,BFM能被用來生成任意數量的隨機網格人臉。此外,在所有生成的人臉網格模型上,對應頂點的索引都是一樣的。例如,在所有訓練模型上,在鼻尖的頂點有相同的索引數字,這將帶來諸多便利。對于訓練模型,只需在任意一個BFM人臉模型上進行一次人臉區域的手動標記,即可知道每個訓練模型要分割的區域上各點的索引,如每個模型鼻子區域的所有頂點索引都是一樣的。

      對訓練模型進行手動分割標記(只需分割標記一次),將一個三維人臉模型分割為10個區域:左眉毛、右眉毛、左眼睛、右眼睛、左臉頰、右臉頰、鼻子、上嘴唇、下嘴唇、下巴,剩下部分屬于其它區域。如圖3所示,對三維人臉模型進行區域分割,不同的分割區域用不同顏色進行標記,每個區域包含很多三維人臉模型頂點。由于很多三維人臉模型額頭部分包含的頂點相對較少,特征信息也相對較少,所以將額頭區域劃分至其它區域。人臉模型的每個區域包含的所有頂點屬于同一類,根據上述BFM數據庫特點可知,數據庫中任何一個人臉模型每個區域包含的所有頂點索引都是一致的。

      2 隨機森林算法分類標記人臉區域

      2.1 隨機森林算法

      分類回歸樹[21]是一個強大的工具,能夠映射復雜的輸入空間到離散或者分段連續的輸出空間。一棵樹通過分裂原始問題到更簡單、可解決的預測以實現高度非線性映射。樹上的每一個節點包含一個測試,測試的結果指導數據樣本將分到左子樹或是右子樹。在訓練期間,這些測試被選擇用來將訓練數據分組,這些分組對應著實現很好預測的簡單模型。這些模型是由訓練時到達葉子節點的被標記的數據計算而來,并且存儲于葉子節點。Breiman[22]指出雖然標準的決策樹單獨使用會產生過擬合,但許多隨機被訓練的樹有很強的泛化能力。隨機被訓練樹的隨機性包括兩方面,一是用來訓練每棵樹的訓練樣本是隨機選取的,二是每棵樹上的二元測試是從使每個節點最優的測試集中隨機選取的。這些樹的總和稱為隨機森林。本文將三維人臉模型區域的標記與分割描述為一個分類問題,并利用隨機森林算法來有效地解決它。

      2.2 訓練

      訓練數據集是由BFM生成的50個三維人臉模型。從每個模型上隨機取n=10 000個頂點樣本,每個頂點對應一個正方形切平面塊。本文實驗中森林由100棵樹建立而成,森林里每個樹由隨機選取的一系列塊(patch){Pi=Vfi,θi}構建而成。Vfi是從每個樣本提取的特征,即正方形切平面描述符,f是特征通道的個數,正方形劃分為K2個小正方形,f=K2。實值θi是這個樣本所屬的類別,例如鼻子區域類別設為數字1,那么鼻子區域內的頂點樣本所對應的θ=1。建立決策樹時,在每個非葉子節點上隨機生成一系列可能的二元測試,該二元測試定義為:

      這里的Pi∈{L,R}是到達左子樹或右子樹節點上的樣本集合,wi是到左子樹或右子樹節點的樣本數目和到父節點樣本數目的比例,例如:wi=|Pi||P|。

      2.3 測試

      通過BFM生成55個三維人臉模型,其中50個人臉模型作為訓練數據,剩下5個人臉模型作為測試數據。測試數據依然取10 000個樣本點,并且知道每個樣本點屬于哪一個區域,通過測試數據計算三維人臉模型網格點分類的準確率。為了測試提出方法的有效性,研究過程中從網上下載獲取了其它三維人臉模型,對人臉模型上的所有網格點通過之前訓練好的隨機森林模型進行分類。因為其它人臉模型與BFM生成人臉模型的尺寸、坐標單位等不一致,所以本研究對這些測試模型進行了后期處理,對正方形的邊長按照模型尺寸的比例M行選取。

      3 實驗

      3.1 數據集與實驗環境

      本文三維人臉標記與分割所用的訓練和測試三維人臉模型由BFM生成,50個模型作為訓練數據,5個模型作為測試數據。每個模型包含53 490個頂點和106 466個三角形網格,每個訓練模型選取10 000個頂點樣本。用C++和OpenGL、OpenCV等庫對三維人臉模型數據進行采樣,得到每個樣本的正方形切平面描述符。在Matlab平臺下用隨機森林算法對數據集進行訓練和測試,并對實驗結果進行可視化。

      3.2 實驗結果

      利用已訓練好的模型對測試數據集上三維人臉模型的所有頂點進行分類,計算頂點分類的準確率。準確率(Accuracy Rate)計算公式為:

      準確率=預測正確的頂點個數(m)人臉模型上所有頂點個數(N)

      根據文獻[10]提出的類似描述符參數選取以及參數優化策略,經過多次實驗,研究發現正方形邊長L和正方形劃分的小正方形數目K2兩個參數的選取對頂點分類準確率有著一定影響。實驗中選取參數L∈{60,80,100}、參數K2∈{9,16,25,36}進行對比,具體對比結果如表1、表2所示(其中表1中K2為16,表2中L為80mm)。

      根據上面兩個表格,可以明顯得出,L=80mm,K2=25時頂點分類準確率最高。接下來對L=80mm,K2=25情況下的三維人臉模型區域進行標記,可視化結果如圖4所示,上邊是原始三維模型數據,下邊是標記后的結果。(a)、(b)模型標記圖是由BFM生成的三維人臉模型區域標記的結果,模型有53 490個頂點。為了驗證本文方法的一般性和對分辨率具有不變性,(c)~(e)模型標記圖是非BFM生成的其它三維人臉模型的標記結果,模型約有5 000個頂點。以上所有圖都是對三維人臉模型所有頂點進行標記的結果。

      文獻[6]~[8]中提到的基于深度圖的特征提取方法(見圖1),同樣利用隨機森林算法進行了實驗,并與本文的正方形特征描述符的實驗結果進行了比較,如表3所示。將深度圖投影到96*96大小,深度圖patch所取邊長c深度圖大小的比例和正方形所取邊長與模型大小的比例相等。

      由表3可得,對三維人臉模型頂點級分類和區域標記問題,本文提出的特征描述符的標記結果優于深度圖patch特征選取方法。此外,由于深度圖的一些局限性,直接對三維模型處理要比對深度圖處理更有優勢。

      3.3 結果討論與分析

      圖4中5個模型頂點數目、三角形面數目和頭部姿勢都不一樣,驗證了本文所提方法對于姿勢、模型尺寸和模型分辨率具有較好的魯棒性。并且其對不同的眉毛、眼睛、臉頰區域也能進行很好的區分,將左右眉毛、左右眼睛和左右臉頰用同一顏色、不同符號進行顯示。本文提出的描述符和直接對三維模型處理的方法,與在深度圖上選取特征方法相比具有一定優勢。由于手動分割人臉區域時,很難避免分割粗糙,區域交界處有的部分頂點沒有包含進去,因此在區域交界處頂點的分類誤差會相對略大,特別是嘴唇之間的部分。另外,三維人臉模型中額頭和下巴的頂點和特征相對較少,所以相較于其它區域,這兩個區域的頂點分類誤差也會略大。

      4 結語

      本文提出一種基于正方形切平面描述符的三維人臉區域標記方法。將這種幾何特征描述符作為選取樣本的特征,通過隨機森林算法,對三維人臉模型進行區域分類和標記。該方法可有效識別出三維人臉模型的眉毛、眼睛、鼻子、嘴巴和臉頰等區域,這對三維人臉特征點的定位及其它三維人臉方面的研究都具有重要意義。本文提出的方法對三維人臉模型頭部姿態、模型尺寸、模型分辨率具有較好的魯棒性。和基于深度圖的方法相比,本文提出的方法具有更好的泛化能力,是一種行之有效的特征提取方法。

      然而,手動分割人臉區域的做法在一定程度上略顯粗糙,特征選取速度亦仍需優化。同時,本文僅對三維模型上所有頂點所屬區域進行標記,沒有將標記后的結果結合三維分割算法進行區域分割優化。如何對相關算法加以改進,將是下一步需要解決的問題。

      參考文獻:

      [1]SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[J]. Computer Vision & Pattern Recognition,2013,9(4):3476-3483.

      [2]CAO C, WENG Y, LIN S, et al. 3D shape regression for real-time facial animation[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.

      [3]CAO C, HOU Q, ZHOU K. Displaced dynamic expression regression for real-time facial tracking and animation[J]. Acm Transactions on Graphics, 2014, 33(4):1-10.

      [4]SEEMAN E, NICKEL K, STIEFELHAGEN R. Head pose estimation using stereo vision for human-robot interaction[C].ICAFGR, 2004 Sixth IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 2004: 626-631.

      [5]BREITENSTEIN M D, KUETTEL D, WEISE T, et al. Real-time face pose estimation from single range images[C]. Proc.IEEE put.Vis.Pattern Recognit, 2008:1-8.

      [6]FANELLI G, GALL J, GOOL L V. Real time head pose estimation with random regression forests[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2011:617-624.

      [7]FANELLI G, WEISE T, GALL J, et al. Real time head pose estimation from consumer depth cameras[C].Pattern Recognition Dagm Symposium, Frankfurt/main, Germany, 2011:101-110.

      [8]FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis[J]. International Journal of Computer Vision, 2013, 101(3):437-458.

      [9]PAPAZOV C, MARKS T K, JONES M. Real-time 3D head pose and facial landmark estimation from depth images using triangular surface patch features[C].IEEE Conference on Computer Vision and Pattern Recognition. 2015:4722-4730.

      [10]SHAPIRA L, SHALOM S, SHAMIR A, et al. Contextual part analogies in 3D objects[J]. International Journal of Computer Vision, 2010, 89(2):309-326.

      [11]SIDI O, KAICK O V, KLEIMAN Y, et al. Unsupervised co-segmentation of a set of shapes via descriptor-space spectral clustering[C].SIGGRAPH Asia Conference. 2011.

      [12]KALOGERAKIS E, HERTZMANN A, SINGH K. Learning 3D mesh segmentation and labeling[J]. Acm Transactions on Graphics, 2010, 29(4):157-166.

      [13]XIE Z, XU K, LIU L, et al. 3D shape segmentation and labeling via extreme learning machine[J]. Computer Graphics Forum, 2014, 33(5):85-95.

      [14]GUO K, ZOU D, CHEN X. 3D mesh labeling via deep convolutional neural networks[J]. Acm Transactions on Graphics, 2015, 35(1):1-12.

      [15]JOHNSON A E, HEBERT M. Using spin images for efficient object recognition in cluttered 3d scenes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1999, 21(5):433-449.

      [16]FROME A, HUBER D, KOLLURI R, et al. Recognizing objects in range data using regional point descriptors[J]. Lecture Notes in Computer Science, 2004.

      [17]TOMBARI F, SALTI S, STEFANO L D. Unique signatures of histograms for local surface description[C].European Conference on Computer Vision Conference on Computer Vision. Springer-Verlag, 2010:356-369.

      [18]ZAHARESCU A, BOYER E, VARANASI K, et al. Surface feature detection and description with applications to mesh matching[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2009:373-380.

      [19]ZAHARESCU A, BOYER E, HORAUD R. Keypoints and local descriptors of scalar functions on 2D manifolds[J]. International Journal of Computer Vision, 2012, 100(1):78-98.

      [20]PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C].IEEE International Conference on Advanced Video & Signal Based Surveillance. IEEE Computer Society, 2009:296-301.

      [21]BREIMAN, LEO. Classification and regression trees[M].Classification and regression trees /. Chapman & Hall/CRC, 1984:17-23.

      [22]MITCHELL. Machine learning[M]. McGraw-Hill, 2003.

      91亚洲自偷手机在线观看| 久久夜色精品国产亚洲av| 亚洲综合图色40p| 亚洲国产天堂久久综合| 亚洲av午夜电影在线观看| 亚洲欧美黑人猛交群| 亚洲资源最新版在线观看| 亚洲另类古典武侠| 亚洲欧洲日本精品| 亚洲欧洲日产国码在线观看| 亚洲日产2021三区在线| 亚洲网站免费观看| 亚洲成a人片在线观看播放| 亚洲男女性高爱潮网站| 亚洲综合激情九月婷婷| 亚洲成在人线电影天堂色| 亚洲成AV人片久久| 亚洲无吗在线视频| 亚洲日本成本人观看| 337P日本欧洲亚洲大胆艺术图| 久久久久久亚洲av无码蜜芽| 国产成人亚洲综合无| 亚洲狠狠爱综合影院婷婷| 亚洲一区二区三区AV无码| 日本亚洲视频在线| 亚洲v高清理论电影| 亚洲黄色免费网址| 亚洲AV综合色区无码二区偷拍| 久久亚洲精品国产精品婷婷 | 国产成人精品日本亚洲11| 2019亚洲午夜无码天堂| 亚洲av永久无码天堂网| 亚洲AV无码一区二区三区电影 | avtt亚洲天堂| 亚洲欧洲无码AV电影在线观看| 亚洲av综合avav中文| 亚洲精品影院久久久久久| 亚洲一区精彩视频| 亚洲XX00视频| 久久精品国产69国产精品亚洲| 久久精品国产亚洲AV电影|