前言:本站為你精心整理了名茶鑒別技術淺探范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
光譜預處理
由于光源強度的不均勻分布,使得光強弱的波段存在暗電流,采集得到的圖像信息包含很多的噪音,因此對高光譜圖像進行矯正[4]。相同采集條件下,獲取白色標準圖像W和黑色校準圖像B,最終得到相對圖像R,完成高光譜圖像矯正。圖2顯示了在408~1117nm范圍內的不同像素的茶樣圖像的光譜曲線。在光譜維中,剔除700nm以下曲線值比較低和900nm以上噪聲較強的光譜曲線后,選取該范圍內的圖像數據;在二維圖像維中,將圖像數據通過ENVI重新采樣,最終對由287張波長在700~900nm范圍內且像素大小為650*811的碧螺春茶樣高光譜圖像三維數據塊進行分析。
特征提取
高光譜三維圖像數據雖然可完全涵蓋研究對象的信息,但是每個樣本過大的數據量降低了后期數據處理的速度。相關性較大的相近波段圖像造成了數據塊中存在大量的冗余信息,所以需要在不丟失有效數據信息的前提下,選擇合適的算法降低數據塊的維數來消去冗余信息,以減少后期處理時間和增強識別結果的準確性。主成分分析是將原始眾多具有一定相關性的變量信息按協方差最大的方向投影,得到幾個彼此相互獨立而且互不相關的綜合變量,并同時完成原始變量數據維數的降低和原始數據中冗余信息的消除。實驗采用PCA來篩選特征波長圖像。結合本PCA原理可知,原始茶樣圖像由各PCA圖像結合對應方差的大小經過線性組合而成;方差貢獻率數值的大小即決定了PCA圖像各自所體現原始圖像信息的比重;比較權重系數即可尋找到最能表征每個原始碧螺春茶樣信息的最佳PCA圖像[5]。經過PCA后得到的前4個主成分圖像PC1,PC2,PC3和PC4,如圖3所示。通過對比可以看出,PC1在波長范圍內最能反映原始茶樣,它是由287個特定波長處圖像和對應權重系數的線性組合,順序選取前2個最大權重系數依次對應763.36nm和791.17nm處的特征圖像。按照此流程,通過PCA分別優選出所有茶樣這兩個波長下的圖像作為對應的特征圖像。灰度共生矩陣一直是重要的紋理統計分析方法之一。GLCM建立在對二維灰度圖像中各像素信息之間的二階組合條件概率密度函數的形象描述,它可以表述為在以灰度級i為始點,θ方向相隔一定的像元距離d時,出現特定灰度級j的概率,即為GLCM矩陣的像元,記為p(i,j,d,θ)。GLCM構造的結構統計和紋理特征從不同的角度反映研究對象圖像的灰度分布,信息的數量以及質地粗糙等特性[6]。本實驗針對每個茶樣優選出2個特征波長下的圖像,為了消去培養皿邊緣光線反光以及背景圖像的影響,以特征圖像的中心位置點為中心,選擇為400*400、包含茶葉信息的正方形圖像區域,以GLCM構造的對比度(Contrast)、相關性、能量和均勻性4個統計量作為紋理特征值。在利用GLCM獲取紋理特征時,不同構造因子(如像元方向角θ和像元距離d)所得到的GLCM差別很大,進而導致最終獲取的二次統計量也存在較大的差異:在討論像元方向角θ取值時,由于茶葉平鋪于培養皿掃描的隨機和不均勻性,本實驗采用固定像元方向角為0°的方法來消除其影響。不同的像元距離d決定了茶樣圖像GLCM中的兩個采樣像素點間的距離。紋理像元較大的粗紋理中,d與紋理像元的幅度相比較小,此時GLCM中的高灰度值的像元就集中在矩陣對角線周圍;而對細紋理而言,如果d與紋理像元的幅度大小差不多,此時GLCM中高灰度值的元素分布較均勻。由此需要針對不同的研究對象選擇合適的d,使得到GLCM構成的紋理統計量能最好地描述所研究的對象[7]。利用MATLAB編制了提取GL-CM特征參數的程序,從所有數據中任選5張圖像分析其GLCM紋理特征參數并進行比較,最終選取像元方向角θ=0°、所有參數數值最大時的d=4作為構造GLCM的最佳像元距離。
模型建立與鑒別結果
SVM是按照間隔大小將低維空間非線性可分映射到高維空間,劃分成若干高維可分子集,建立結構風險最優化模型[8]。SVM可以通過出色的學習能力自動尋找到對分類有較強劃分能力的支持向量,構造的分類器可將各類之間間隔距離達到最大限,其分類準確率可以達到很高[9]。因此,本文采用SVM作為模式識別模型,來對真偽碧螺春茶樣GLCM構造的紋理統計信息進行預測和判別。SVM核函數的引入,使其在算法復雜度不增加的情況下又具有了很高的學習機器非線性處理能力。研究最多的核函數有多項式核、徑向基核以及Sigmoid核函數,但是徑向基核函數較Sigmoid的局部性強,較多項式核的參數少、計算時間短[10]。考慮需要對真偽茶葉樣本的快速鑒別,因此選取了徑向基核函數。核函數參量懲罰系數C和寬度δ對模型也會產生一定的影響,本實驗采用交叉驗證法對核函數的參量進行優化,結果模型識別效果最佳的徑向基核函數懲罰系數C=39.78,寬度參量δ=2.82。在每個茶樣的特征波長下,對應圖像構成的8個GLCM紋理特征變量組成的訓練集和預測集數據變量之間仍然存在一定的相關性,所以在模型建立之前,繼續采用PCA對數據進行獨立的主成分分量提取,構成基于RBF核函數的SVM模式識別的變量輸入;選擇合適的主成分數對鑒別模型的建立也很重要。不同主成分數對模型結構的影響如圖4所示。由圖4可以看出:在主成分數等于6之前,預測模型的判別率隨主成分數的增加而升高;但當主成分數增加到6以后,再隨著主成分數的增加,預測時判別率卻有下降的趨勢。圖4訓練和預測模型的判別率與主成分數關系比較后,最終選取訓練預測集都最高的像元方向角θ為0°,像元距離d為4的前6個主成分特征變量作為SVM模型的輸入變量。表1為真偽茶樣本的訓練和預測的結果。從表1可以看出,真偽品茶訓練集的誤判數為0,總體判別率為100%。預測集中,將一個真品碧螺春茶樣誤判為偽品茶,2個偽品茶樣誤判為真品茶樣,模型總體鑒別率為96.25%。結果表明,真偽品茶樣鑒別模型的識別率和穩定性都達到一個很高的水平。實驗中,偽品樣本誤判數高于真品是由不同采購產地偽品茶樣本模仿真品碧螺春茶制作工藝的技術優劣差別造成的,一些經過優良加工的偽品茶樣本和真品碧螺春茶樣本之間品質指標比較接近,這就會使模型的識別結果產生一定的誤差。
本文作者:蔡健榮韓智義作者單位:江蘇大學