前言:本站為你精心整理了數據挖掘的計算機用戶行為分析與識別范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:隨著互聯網技術的快速發展,網絡已經成為人們生活及工作中不可或缺的一部分,本文通過對網絡用戶上網時所表現出來的行為進行分析研究,探索其行為特征及行為模式,建立計算機用戶行為模型,利用聚類分析技術及相關算法建立了一個計算機用戶行為分析識別系統,通過對網絡用戶日志數據所表現出來的行為進行預處理、模式挖掘及聚類分析實現了用戶身份識別功能。并對系統的準確率和誤差進行了分析,最后對該模型的完善和改進提出了若干設想。
關鍵詞:數據挖掘;K-均值聚類分析;分析識別;行為模式
1引言
本文通過數據挖掘技術從海量的用戶網絡日志數據中分析用戶行為的有效特征信息,建立了用戶行為分析模型,通過ANOVA進行了模型可行性論證,基于C#和SPSS統計分析軟件設計了一套計算機用戶行為分析系統,建立了數據預處理、聚類分析等模型,通過K-MEANS算法對用戶行為特征信息進行分析、處理和分類,完成用戶特征識別,并對識別誤差進行研究分析,提出了若干改進方法,該模式的分析應用對今后大數據的分析以及處理技術的發展具有重要意義。
2數據挖掘原理
2.1數據挖掘概念和流程
數據挖掘(DataMining),是數據庫中知識發現(KDD)過程中的高級分析步驟,是計算機科學的跨學科子領域,是在海量的數據中發現模式的計算過程,涉及到數據庫系統(DataSystem)、統計學(Statistic)、分布式計算(Ha-doop)、并行計算(Parallel)、機器學習(MachineLearn-ing)、人工智能(ArtificialIntelligence)等多個交叉的學科[1]。數據挖掘流程如圖1[2]所示。
2.2聚類分析原理及算法
聚類分析是研究樣品或指標分類問題的一種多元統計方法,類就是指相似元素的集合。根據分類對象的不同,聚類分析可以分為樣品聚類和變量聚類,在統計學中,樣品聚類又被稱為Q型聚類,是對事件或觀測量進行聚類,而變量聚類則被稱為R型聚類,反映同一事物特征的變量很多,通常根據研究的問題選擇部分變量對事物的某一方面進行研究[4]。聚類分析的算法可以分為劃分法(PartitioningMe-thods)、層次法(HierarchicalMethods)、基于密度的方法(density-basedmethods)、基于網格的方法(grid-basedmethods)、基于模型的方法(Model-BasedMet-hods)[5]。本文主要采用基于距離的劃分法,給定要構建的分區數k,創建一個初始化劃分,采用迭代重定位技術,通過把對象從一個組移動到另一個組來進行劃分。同一個簇中的對象盡可能相互接近或相關,而不同的簇中的對象盡可能遠離或不同。使用這種思想的算法主要有K-MEANS算法[5]和K-MEDOIDS算法[6]等。K-均值聚類(K-MEANS)算法又被稱為快速聚類法,可對大量數據進行聚類分析,屬于非層次聚類方法,計算量小、占用內存少、處理速度快,非常適用于大樣本聚類分析。
3計算機用戶行為分析模型設計
3.1模型目標功能及整體結構
本文主要目的是通過用戶上網生成的網絡日志數據來實現對計算機用戶的識別,因此對模型的設計主要考慮算法的使用以及類別的劃分。本文使用K-均值聚類算法對預處理后的數據進行聚類分析,將數據進行不斷聚類,提取聚類中心,直到分出用戶的具體職業以及學歷。樣本用戶職業類別分為學生、農村外出務工人員和產業、服務業工人3類,而學歷則是在后兩種職業中進行劃分,其中產業、服務業工人學歷劃分包括高中、本科和大專3種,農村外出務工人員學歷劃分則只包含初中和高中兩種。學歷的聚類分析在職業劃分結束后進行,并且在同一類職業當中進行聚類。模型整體架構如圖3所示,模型主要分為2個模塊,包括數據預處理模塊和聚類分析模塊。
3.2數據預處理模型
數據預處理是整個設計的基礎,對其進行研究需要分析出能反映用戶行為特征的屬性,完成對原始數據的處理分析,提取有價值的信息作為新的樣本分析數據,這是計算機用戶行為分析與識別的前提。
3.3數據處理分類模型
K-均值聚類算法是一種非常簡潔和高效率的聚類算法,現階段的應用是最廣泛的,因此利用此算法來完成最后的分類模塊。通過上圖可知本設計是利用K-均值聚類算法對預處理后的數據以及通過聚類分析提取出的聚類中心進行匹配計算,主要計算預處理后的用戶行為數據和聚類中心之間的歐式距離,比較與不同聚類中心之間距離的大小,將用戶歸為距離最小的那一類當中。
4模型設計論證
聚類分析的主要目的是通過對用戶行為數據進行多次聚類,不斷提取聚類中心,直到將不同職業以及學歷用戶區分開來,聚類過程中的初始聚類中心和最終聚類中心結果分別如表1和表2所示。表1和表2的數據是對預處理后的數據做第一次聚類分析時的聚類中心結果,通過其可知最終聚類中心相對于初始聚類中心來說發生了較大的變化,每次變化都是對數字進行了一次重新聚類,直到出現最合適的聚類中心,聚類分析會在聚類中心不再發生變化或誤差平方和局部最小時終止。在最終聚類中心結果中,不同類別間的聚類中心也有一定的差異,最終聚類中心距離結果如表3所示。通過最終聚類中心間的距離結果可知,第二類和第三類之間的距離最大,第一類和第二類之間的距離最小,這個結果和最終聚類中心的實際情況是符合的,說明K值為3時的聚類分析合理可行。在進行聚類分析的過程中,K-均值聚類需要對用戶數據進行迭代與分類處理,在迭代過程中不斷更新聚類中心,把觀測量分派到與之最近的以類中心為標志的類中去,當滿足收斂判據或迭代次數上限時,迭代會停止。聚類中心內的更改在聚類中心內沒有改動或改動較小時達到收斂,任何中心的最大絕對坐標更改為.000,當前迭代為5,初始中心間的最小距離為24470.703。通過聚類分析的迭代歷史記錄可知,第一次迭代的變化值是最大的,之后就開始逐漸減少,直到最后第五次迭代時,聚類中心就不再發生變化,此時就完成了聚類分析模塊中提取聚類中心的工作,在此基礎上通過ANVOA表進行模型可行性分析,統計量臨界值和顯著性檢驗的大小如表5所示。通過對聚類分析結果進行方差分析,主要觀察其中列出F值即統計量臨界值和Sig.值即顯著性檢驗的大小,從表中可以看到,各個指標在不同類之間的差異是非常明顯的,用戶行為有效信息類的差異性可以滿足模型分類要求,由此進一步驗證聚類分析模型的有效性。
5系統實現
5.1模型功能實現
整個系統主要包括數據預處理、聚類分析、K-均值算法處理分類等三個模塊,系統實現主要基于C#語言和SPSS統計分析軟件來完成,將一名大學本科用戶ID為99BFDBE657AC81470256210593973290的產業、服務業工人數據被輸入到系統中,實現結果樣式如圖6所示。但并不是100%的用戶數據都能夠被完全準確的識別出來,通過非建模使用的數據對系統功能進行進一步分析驗證,系統對用戶職業分類識別的準確率為55.6%,而對用戶學歷分類識別的準確率為42.5%。
5.2誤差分析
系統通過對網絡日志數據對用戶職業以及學歷的分析識別錯誤率分別為44.4%和57.5%。產生誤差的因素主要有原始數據的合理有效性、聚類算法所存在的缺陷、識別用戶時日志數據的選取等三方面。(1)原始數據的有效性。原始數據是從公開的數據源中查找出來并應用到對本系統的設計實現當中,根據對數據的觀察分析,數據本身存在一定的不合理性,雖然對原始數據做了處理分析,但仍然有一定的問題存在,比如在對用戶上網時所瀏覽網址進行分類時,有些數據中的URL和窗口進程存在不完整或缺失的情況,導致無法對用戶的上網行為進行完全的統計分析,而且有些用戶上網行為較同類用戶整體相比存在異常,無法對其進行最終的聚類分析,導致最后此類用戶在聚類結束時仍未被分類出來,最終對設計結果產生相應的影響并增大錯誤分析的概率。(2)K-均值聚類算法存在的缺陷。K-均值聚類算法主要是對預處理后的數據進行分析,此算法中的K值需要提前設定,因無法確切知道需要分析的數據應該劃分成幾類,所以K值的選擇很難判斷,一旦分類不合理就有可能對最終系統的實現造成影響。同時初始聚類中心的選擇對于聚類的劃分也存在一定的影響。(3)識別用戶時用戶日志數據的選取。本設計中原始數據包括用戶連續28天的網絡行為日志,在實現過程中所用數據使用的是每個用戶擁有最大數據量的網絡日志,這種選取方法適用于對不同類用戶的所有整體進行分析聚類,提取用戶群體的行為模式,但對單個用戶來說,數據量再大的網絡日志也無法完全體現其所有行為特征,只有對其進行長期的分析研究才能將其行為特征最大化,所以這種選取方式對系統的實現也有一定的影響。
5.3關于改進系統設計的若干設想
通過誤差分析發現本系統設計還有一定的改進空間,為此提出以下改進設想:(1)建立異常檢測機制,對用戶行為數據進行分析時,將異常用戶行為數據標記出來,獨立輸出相應結果。初始聚類中心的選取則可以通過遺傳算法來實現。(2)嘗試其它不同算法對用戶網絡日志數據進行處理分析,比如ISODATA算法、RPCL算法等,并將其處理結果的準確率與本設計中的結果準確率進行比較,選出最優算法。(3)對用戶連續28天的網絡日志數據進行處理分析取均值,作為聚類分析所需數據,進行系統實現,與本系統結果進行比較,觀察準確率變化情況。
6結束語
本文介紹了數據挖掘概念特征和聚類分析原理,通過分析計算機用戶網絡日志數據建立了分析和識別模型,與以往的匹配識別不同,該模型是通過大數據分析用戶特征,利用K-means算法進行聚類,進而實現用戶識別功能。該系統的實現對于網絡智能化服務及大數據運用的發展有著重要意義。然而該系統的識別成功率還有待提高,收集更加完善且不同類型的數據,建立異常檢測機制以及改進更新識別算法,進一步提高識別準確率將是今后研究的重點。
作者:胡富增 王勇軍 單位:解放軍91404部隊