前言:本站為你精心整理了分析數據挖掘課程的教學思路和方法范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
闡明了主成分分析在數據降維的同時能夠保持原始數據的絕大部分能量信息沒有損失,是一種最優的數據描述和表示方法。通過對主成份分析理論基礎的講述,讓學生不僅掌握了主成分分析的內容和作用,搞清楚了相關的計算過程,這也對學生更好地實現主成分分析的程序設計和應用情況有了清楚的認識。對于教材中一些簡單的內容,比如數據分箱、K近鄰分類等,我們要求學生自己理解,然后隨機抽取學生為其他同學講授,這樣可以提高學生的主動性,加深學生的理解。對于一些簡單的問題,如K-means聚類的類別中心為各類樣本的均值,我們可以讓學生自己證明,提高他們的理解力。在講授其他一些內容時,比如說聚類分析,我們可以將聚類分析的各個過程用圖的形式表示出來,用空間中的點表示聚類樣本,這樣就大大增強了學生的理解。
我們在教學的過程中,也比較比較注重案例教學。例如,在講授神經網絡時,我們可以用上海證券交易所中股市中股票隨時間變化的數據為例,讓學生討論如何應用神經網絡對股票價格進行預測。人工神經網絡是一種模仿自然界動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型,能夠較好地處理具有一定復雜性的數據,在預測、擬合等方面取得了很好的應用效果。讓學生采用神經網絡進行實際數據分析和處理,可以增強他們學習的積極性,更主動地投入到學習中去。我們也要求他們使用回歸分析的方法對股票價格進行預測,然后和神經網絡預測的結果進行比較。通過這個過程,可以使學生們不但了解了神經網絡與回歸分析算法的異同,加深他們對神經網絡的認識。
加強實驗教學,增強學生動手能力
信息與計算科學專業是以信息領域為背景,數學與信息、管理相結合的交叉學科專業。該專業培養的學生具有良好的數學基礎,能熟練地使用計算機,初步具備在信息與計算科學領域的某個方向上從事科學研究,解決實際問題,設計開發有關軟件的能力。畢業生適合到企事業單位、高科技部門、高等院校、行政管理和經濟管理部門,從事科研、教學和計算機應用軟件的開發和管理工作,也可以繼續攻讀信息與計算科學及相關學科的碩士學位。從信息與計算科學專業的培養目標可以看出信息與計算科學專業的本科生不但需要掌握理論知識,還需要具有將所學知識用來解決實際問題的能力。數據挖掘作為一門應用性較強的課程,需要學生能夠運用數據挖掘知識分析和解決實際問題,要求學生能夠熟練掌握數據挖掘的程序設計,以便在將來的就業中具有更好的適應性,因此實驗環節的教學有著其必要性。基于這些原因,我們在這門課中引入實驗環節,并將其納入考核要求。我們實驗所用的基本軟件是SAS統計分析軟件。SAS軟件是一個集統計分析、報表圖形、信息系統開發和大型數據庫管理等多種強大功能為一體的大型軟件系統,是目前國際上主流的統計分析軟件之一。我們信息專業在大三時開設這門課程,之前已經學過C語言和JAVA等程序設計方法,有了一定的編程基礎,因此學習使用SAS軟件并不是特別困難。而且,在SAS軟件中,系統自帶了許多數據挖掘函數,這方便了同學們的使用。我們在平時的學習中,將一些SAS軟件的基本程序設計基礎知識先發給同學們,讓他們利用課后時間自己在個人電腦上進行熟悉,從而使得他們熟悉基本SAS程序設計方法,這樣可以在實驗課上直接運用SAS軟件進行數據挖掘程序的編寫。在實驗課上,我們主要將要實驗的內容和相關數據資料提供給同學,要求同學自己用數據挖掘的知識和SAS軟件進行編程實現,并寫出實驗分析和小結。另外,在實驗中,我們也要求學生盡可能將一些實驗結果用圖表的形式如崖底碎石圖等表示出來,以利于進一步分析。對于少部分學有余力的同學,我們也引導他們自編相關的程序。比如說在SAS軟件中進行K-均值聚類用fastclus這個函數就可以了,但是學生對程序具體實現過程可能不是很清楚。如果學生能夠將程序K-均值聚類詳細程序步驟自己編寫出來,就可以表明學生對所K-均值聚類算法也有了較清楚的認識。另外,對于屬于數學建模協會的同學,我們也引導他們將數據挖掘的知識和數學建模中某些問題相結合起來,對于以往出現的一些可以利用數據挖掘知識分析的問題讓他們利用相關的數據挖掘知識對其進行分析和求解,通過這樣的方式,可以這樣拓展這些同學的思路,也為數學建模培養了人才。
靈活的課后作業形式,提高學生的綜合能力
對于我們講授的課題,每學完一個算法,我們要求學生在網絡上搜索該方法的運用領域和技術要點,加深對該算法的理解。然后,我們讓每一個同學自己挑選一個該算法可以解決的問題,在網上搜集相關數據,寫出實現程序,并寫出相應的小論文。這也可以鍛煉學生的搜索、整理和分析處理數據的能力。對于課程中的某些案例,我們要求學生進行重新總結思考。比如在運用主成分分析進行入侵檢測的這個案例,案例中的主要指標是運用兩類樣本協方差特征根的差異進行分析和比較。我們讓學生思考該處理方法的優缺點,同時讓學生思考有沒有其他的思路,比如按照模式分類的思想來實現。即首先主成份分析進行降維,然后運用K-近鄰分類方法進行分類。另外,也讓學生思考有沒有其他的思路,比如特征降維是否可以采用其他方法,如線性鑒別分析等;而分類方法是否可以采用BP神經網絡等。進一步,我們可以讓學生比較主成份分析和線性鑒別分析有什么異同之處;K-近鄰分類和BP神經網絡運用于分類時執行過程有什么異同之處。讓學生對這些算法的理解更加透徹。另外,在課本的作業之外,我們也會自編一些題目,讓學生自己進行思考分析。比如,對于圖1雙圈圖,我們可以設置這樣的問題:將圖形的描點數據給大家,要求他們繪出圖形,說明形狀。然后要求他們運用K-means聚類聚為兩類,并且根據聚類的結果畫出圖形。然后將所得的圖形跟原始圖形進行比較,說明差異之處。通過這樣的問題,既可以使得學生對數據整理、畫圖等有一定的掌握,還使得他們熟悉了K-means聚類算法的編程過程。另外,使得他們不僅了解了K-means聚類算法的優點,也使得他們理解K-means聚類算法作為一種線性方法的局限之處。四、小結綜上所述,“數據挖掘”課的教學既要注重基本理論與方法的講解,使得學生能夠掌握數據挖掘的基本理論和知識;又要培養學生的思考和分析能力,提高他們運用數據挖掘的相關程序解決實際問題的能力。從而使得所學的知識能夠真正運用于實踐中,提高學生的綜合能力。本文嘗試對本科數據挖掘教學做一些總結,如何更好地提高《數據挖掘》這門課的教學質量,期待更多的同行共同探討。
作者:徐春明單位:鹽城師范學院數學科學學院