前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇統計數據分析范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
【關鍵詞】統計數據;分析方法;市場調研;判別分析
一、數據統計分析的內涵
數據分析是指運用一定的分析方法對數據進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數據統計分析就是運用統計學的方法對數據進行處理。在實際的市場調研工作中,數據統計分析能使我們挖掘出數據中隱藏的信息,并以恰當的形式表現出來,并最終指導決策的制定。
二、數據統計分析的原則
(1)科學性??茖W方法的顯著特征是數據的收集、分析和解釋的客觀性,數據統計分析作為市場調研的重要組成部分也要具有同其他科學方法一樣的客觀標準。(2)系統性。市場調研是一個周密策劃、精心組織、科學實施,并由一系列工作環節、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數據統計分析方法而言,無論是基礎的分析方法還是高級的分析方法,都會有它的適用領域和局限性。(4)趨勢性。市場所處的環境是在不斷的變化過程中的,我們要以一種發展的眼光看待問題。(5)實用性。市場調研說到底是為企業決策服務的,而數據統計分析也同樣服務于此,在保證其專業性和科學性的同時也不能忽略其現實意義。
三、推論性統計分析方法
(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數值型因變量的影響,比如它們之間有沒有關聯性、關聯性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。(2)回歸分析。在數據統計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應的因果變化往往無法用精確的數學公式來描述,只有通過大量觀察數據的統計工作才能找到他們之間的關系和規律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數據進行分析、計算和歸納。
四、多元統計分析方法
(1)相關分析。相關分析是描述兩組變量間的相關程度和方向的一種常用的統計方法。值得注意的是,事物之間有相關關系,不一定是因果關系,也可能僅僅是伴隨關系;但如果事物之間有因果關系,則兩者必然存在相關關系。(2)主成分分析。在大部分數據統計分析中,變量之間是有一定的相關性的,人們自然希望找到較少的幾個彼此不相關的綜合指標盡可能多地反映原來眾多變量的信息。所謂的主成分分析就是利用降維的思想,把多指標轉化為幾個綜合指標的多元統計分析方法,很顯然在一個低維空間識別系統要比在一個高維空間容易的多。(3)因子分析。因子分析的目的是使數據簡單化,它是將具有錯綜復雜關系的變量綜合為數量較少的幾個因子,以再現原始變量與因子之間的相互關系,同時根據不同因子,對變量進行分類。這些因子是不可觀測的潛在變量,而原先的變量是可觀測的顯在變量。(4)聚類分析。在市場調研中,市場細分是最常見的營銷術語之一,它按照一定的標準將市場分割為不同的族群,并使族群之間具有某種特征的顯著差異,而族群內部在這種特征上具有相似性。聚類分析就是實現分類的一種多元統計分析方法,它根據聚類變量將樣本分成相對同質的族群。聚類分析的主要優點是,對所研究的對象進行了全面的綜合分析,歸類比較客觀,有利于分類指導。(5)判別分析。判別分析是判別樣品所屬類型的一種多元統計方法。若在已知的分類下,遇到新的樣本,則可利用此法選定一種判別標準,以判定將該新樣品放置于哪個類中。由定義我們可以知道判別分析區別于聚類分析的地方,而在判別分析中,至少要有一個已經明確知道類別的“訓練樣本”,從而利用這個數據建立判別準則,并通過預測變量來為未知類別的觀測值進行判別。與聚類分析相同的地方是,判別分析也是利用距離的遠近來把對象歸類的。
參考文獻
[1]溫美琴.統計分析方法在我國政府績效審計中的應用[J].統計與決策.2006(23)
關鍵詞:大數據時代;統計創新能力
數據爆炸具三維特點,所謂三維多指除數據量迅速增多外,還指數據多樣性以及數據資源的增長速度不斷加快。從數據發展到大數據即是數據質量的飛躍更是量的積累,大數據能條理清晰的把不同形式、不同來源以及不同信息的諸多數據進行分析、整合,把先前孤立的部分數據互通互聯,全面客觀地詮釋某個現象、某個事物的具體細節與整體情況,這是小數據時代難以比擬的新興知識。大數據屬于非競爭性資源,具重復使用以及不斷產生新資源的優勢,所以大數據在各個領域可創造新興的重要價值。
一、大數據成為政府統計新趨勢
大數據的時代,政府合理運用大數據,已從粗放型轉變為集約型。部分發達國家在政府統計與大數據結合方面位于前列,在美國政府所提出的大數據發展計劃與研究中,通過HPSS系統對數據流的即刻分析、可擴展性分析技術與數據縮減技術,對海量數據進行的分析處理,可提高能耗預警能力以及擴展能源統計領域。國家統計局已與阿里巴巴(中國)有限公司、山東卓創資訊集團有限公司等十幾家企業簽訂了大數據戰略合作框架協議,共同推進大數據在政府統計中的應用,不斷增強政府統計的科學性和及時性。
二、大數據背景下統計創新能力的重要性
大部人認為大數據時代全體等同于樣本,得到的數據是全數據而不是抽樣性數據,因此進行簡單的結算即可,無需系統地進行統計分析。事實上這種觀點較為片面,因為大數據僅告知信息并不解釋相應的信息內容,研究大數據時若無全面的科學數據指導,如同建造橋梁時不使用工程科學知識,繼而造成嚴重后果和不良影響。隨著萬千事物的變化,全數據的不確定性較大,所以統計性數據分析是大數據邁向應用的關鍵點。
三、政府統計主導設立地域性數據中心
(一)政府統計主導,確保數據的準確性
政府相關統計部門應堅持設立縣域公共性數據中心主導地位,以提高數據的收集效率與權威性,保證數據真實而全面。例如數據青島是由青島市的統計局完全主導創建的數據中心,在數據青島的基礎層次上向縣域性社會經濟發展延伸到即墨市 “綜合性數據信息平臺”,該信息平臺是由當地政府主導設立的數據中心,擴大數據信息覆蓋層面的根本上,確保數據的準確性與權威性。
(二)一盤棋管理,確保數據質量
將“一表”“一庫”和公共性數據中心進行數據互動,將數據維護基點進行細化,并分塊管理數據,使源頭數據的質量逐漸提高。從實踐分析,由政府主導的相關數據中心需將基層建設完全落實到功能區統計、園區統計以及鎮街統計,以網格化的管理提高數據中心的數據質量,避免數出無源、數出無據以及數出無門,以此提高統籌效率與數據采集效率。
(三)多方面進行合作,提高數據的全面性
開展與科研院所以及高校等部門數據中心的端口開放和合作,有選擇性地與相關領域、相關行業以及相關縣市數據中心實行數據互交,為數據研究提供全面客觀的對比性依據。我國部分發達城市創建的大數據中心可將某些數據端口與研究所合作共同分享資源,即能借助研究所較為專業的數據資源豐富政府數據統計分析方法,又能彌補收集政府統計數據的不足。
(四)豐富公共服務中心數據的分類方式
可將財務報表、行政記錄等初級統計資料和次級統計資料歸納至數據中心系統中,使信息檢索功能得到強化,篩選并應用可用信息,提高數據真實性,數據服務形式逐漸豐富。
四、創建數據分析工具以及統計數據模式
對經濟發展秩序的系統分析主要依賴于數據挖掘,現今數據已被更多的人認識,在生活、工作等各個方面的應用具重要價值,若依靠橫向數據排名以及歷史數據增長很難全面客觀地顯示出問題本質??茖W合理的統計數據模式是探尋發展規律、探析數據的最重要手段。例如分析勞動工資數據時,應用明塞爾資本收益化函數或是C~D生產性函數分析數據,可得出地區不同的勞動力素養以及勞動生產幾率對生產值的貢獻力度,為勞動力部分政策提供參考依據。
(一)設立適宜各專業應用的數據分析模式
政府統計具較高的專業性,不同專業、不同領域創建的數據分析模式均不相同,通過數學模型篩選,創建專業化的數據分析模式,從不同時期、不同角度以及不同層面對專業化數據進行空間序列與時間序列的探析,非線性和線性回歸參數檢驗與估計作用,達到對數據高質量、多角度的細致分析。就像應用歐氏距離檢測典型結構與產業化內部結構的相似度,能夠較為精準地展示產業結構的演變層次與發展水平,對產業化的結構層次具定量化評估。
(二)配套創建數據分析軟件庫
給予海量大數據高速計算是應用數據探析模式的一大特點,高速計算遠超出人力計算范圍,需采取相關分析軟件輔助計算。使用C~D生產函數分析數據時需用到Eviews軟件運算大數據。部分地區在實踐中發現,數據分析軟件的需求多表現為兩個方面,一方面分析數據時常需要相關分析軟件輔助計算,方可得到滿意的分析成果;另一方面,相關數據分析軟件的使用和獲取存在一定難度,有些數據軟件對硬件設備具較高要求,而且運算量極大,部分分析軟件需在外文的指導下方可使用。所以應創建適宜各專業應用的數據探析軟件庫,為數據統計分析提供操作與技術支持。
五、多渠道深入遞進數據
數據質量與數據時效性是數據統計分析的關鍵。隨著社會經濟的發展,數據每時每刻都在變化,行業風險、國際競爭以及相關政策出臺對有些經濟數據具一定影響。
(一)政策的跟進
尤其涉及新能源、戰略性新興產業、高新技術以及出口方面產業,地方與國家政府政策對企業經營發展具很大影響。政策跟進過程中需實時管理信息公布平臺,與部分主要門戶網站合作創建信息交互體制,以便企業能夠及時通曉政府的各類信息,把握產業相關政策動態。例如我國太陽能方面的光伏產業屬于重點扶持產業,每年能夠得到國家部分產業補貼,所以分析產業發展數據時需將產業補貼計算在內,否則容易對產業未來前景做出樂觀估計。
(二)跟進企業發展
企業發展的受制因素較多,金融成本、商業風險以及經營策略對數據時效性具較大影響,對于部分縣域政府統計,企業的發展數據跟進需要走進企業實地考察,以便掌握企業發展面臨的困難與優勢。同時還要通過社會考察了解企業信用、用工方面等諸多問題,預估數據的發展趨勢,以此充分補充企業發展的數據分析內容。
(三)跟進產業環境
產業的服務機構、進出口以及地域等環境對企業經濟發展具有影響,進而對需要進行分析的企業相關數據產生較大影響。想要跟進產業環境可通過相關信息渠道通曉國內產業發展與進出口環境現狀,大致了解行業發展狀態。同時還可深入研究企業園區等為企業在條件放寬、證件審核、進出口以及稅收等方面提供各種優惠舉措。
六、結束語
隨著科技的進步與經濟的發展,大數據時代逐漸融入到工作與生活當中。大數據時代的來臨可稱之為數字化革命,海量的數據資源致使政府、商界以及學術界開始邁入量化進程,為教育衛生、經濟發展等社會方方面面的統計工作帶來創新與機遇。
參考文獻:
[1]飛.大數據時代工業統計創新能力的分析與研究[J].財經界,2015(19).
[2]王晨曦.大數據時代創新統計數據分析方式的思考[J].中國統計,2015(13).
[3]朱懷慶.大數據時代對本科經管類統計學教學的影響及對策[J].高等教育研究,2014(03).
[4]王彥彭.大數據時代中西部二三本高校統計學專業教育教學的思考[J].教育教學論壇,2015(43).
【關鍵詞】統計;數據分析觀念;收集;整理;分析
《數學課程標準(2011年版)》把數據分析觀念作為十大核心概念之一,可見其在小學數學教學中的重要地位.可以說,培養數據分析觀念是統計教學的出發點和歸宿.怎樣培養學生的分析觀念呢?筆者認為,在統計教學中,我們要讓學生經歷收集、整理、描述和分析數據的過程,掌握統計的特點和方法,提高數據分析能力,形成統計意識.下面以蘇教版五年級上冊“復式統計表”的教學談談我的教學實踐與思考.
一、經歷對比過程,增強統計意識
贊可夫說:“教學法一旦觸及學生的情緒和意志,觸及學生的心理需求,這種教學法就能發揮高度有效的作用.”在課堂教學的實施過程中,采用“對比”的教學方法,能有效觸及學生心理需求,使得原本枯燥的學習內容更具吸引力.如,“復式統計表”(以下簡稱“本課”)的教學中,我設計了前后兩次搶答,讓學生在強烈的對比沖突中獲得體驗,充分體會復式統計表的優越性.
課一開始,教師引導學生用四張單式統計表整理“青云小學五年級同學參加樂器興趣小組的人數情況”,然后,設計了三道搶答題:(1)哪個興趣小組的男生人數最多?(2)哪個興趣小組的女生人數最多?(3)四個興趣小組的男生人數多還是女生人數多?回答前2個問題時,學生通過對比觀察四張單式統計表還能及時找到答案.但是回答第3個問題時明顯產生困難,大部分學生一時之間無法回答,發現有些問題從單式統計表中是無法直接找到答案的,從而產生合并四張單式統計表的需求.當通過學生自主研究,合并成一張復式統計表后,教師又組織了一次搶答,還是同樣的3個問題,這時學生的速度和準確率明顯提高了,特別是第3個問題,大部分學生都能很快回答.
通過前后兩次搶答的“對比”經歷,學生感受到復式統計表能夠看到更多的數據,了解到更多的信息,提出更多的問題,引起更多的思考……前后鮮明對比,復式統計表的優勢顯而易見,從而幫助學生深刻體會到復式統計表相對于單式統計表的優越性.此外,學生對復式統計表的特點也有了更充分的認識,為后續觀察、分析數據奠定知識基礎,使學生能主動、多角度地觀察分析復式統計表,增強了統計意識.
二、經歷整理過程,掌握統計方法
掌握復式統計表的結構特點和填寫方法是“復式統計表”的教學重點之一,是學生有效整理數據的重要方法.教材直接引導學生將單式統計表中的數據填入復式統計表中,雖然在填表過程中學生能掌握填表方法,但對復式統計表的欄目含義和結構特點理解并不深刻,不易于知識的建構.為此,教學中我們改變教材“靜態”的呈現方式,讓學生“動態”地經歷由四張單式統計表合并、優化成一張復式統計表的過程,進而掌握復式統計表的結構特點.
本課教學中,當學生指出“為了更一目了然地比較數據”,要合并四張單式統計表時,教師讓學生嘗試合并,然后思考:這樣合并有哪些可以改M的地方?學生通過討論、交流、反饋發現:(1)可以去除“重復的文字”;(2)可以改進縱欄的“小組名稱”;(3)可以改進“表頭”;(4)還可以加入“總計”欄;(5)添上“名稱和制表時間”,這樣就形成一張完整的復式統計表.如下圖所示.
學生興趣盎然地經歷復式統計表的“形成”過程中,通過一系列問題的討論、展開、解決,既體現了一定的邏輯關聯,又有效化解了學生的認知過程中的難點,明確復式統計表的結構特點;既掌握了復式統計表的結構特點,又體會了欄目設置的科學性和合理性,從而更好地觀察分析數據,掌握統計方法.
三、經歷收集過程,感悟數據價值
“了解在現實生活中,有許多問題應當先做調查研究,搜集數據,通過分析做出判斷,體會數據中蘊含著信息.”――這是《數學課程標準(2011年版)》中關于“數據分析觀念”的描述.為此,教學時要讓學生基于問題的需要進行調查,經歷數據的收集、整理和分析的過程,使學生真切地感受到:開展調查是為了解決問題,調查的結果能幫助我們解決問題,體會調查的作用,了解并掌握一些常用的調查方法,進而體會統計數據的意義和價值,培養學生的統計意識.
本課教學中,在學生初步學會用復式統計表整理和分析數據后,將教材中“練一練”的“調查學生對四種樂器喜好”改為更貼近學生生活實際的“體育老師擬定的四項大課間活動――跳長繩、踢毽子、打羽毛球和滾鐵環”,設計學生感興趣的話題――想了解“男、女同學對四個大課間活動的喜好有什么區別嗎?”學生討論發現,要解決這個問題必須先進行調查;在學生有了調查的需求后,接著引導討論“如何調查”的問題.學生各抒己見,教師適時總結調查方法;再組織全班調查,主動用復式統計表整理數據,從而達到解決問題的目的.然而關于調查并沒結束于此,教師繼續引導學生思考:“如果體育老師要決定五年級的大課間活動,會如何調查?全校的呢?”學生在交流中發現像“了解全校同學的運動喜好”這樣的大數據調查,可以采用抽樣調查,對調查的手段和方法又有了更進一步的認識,數學活動經驗也更加豐富.
學生在這樣的學習過程中,通過調查獲得有關數據,經歷收集與整理數據、呈現與表達數據、分析與利用數據的全過程,感受到“調查”的力量,知道以數據為載體的統計活動是解決實際問題的需要,體會“只有用數據說話才能有理有據”的統計思想.
四、經歷分析過程,提升分析能力
數據分析是統計的核心.積累數據分析經驗、培養學生的數據分析能力應該貫穿于統計教學的全過程,這個教學過程要讓學生體會數據的作用,了解數據背后的信息,知道運用數據可以做什么,對生活有什么指導意義.
比如,本課中學生調查并完成如下統計表:
五年級(7)班同學想參加的課間活動情況統計表
2016年12月
1合計1跳長繩1踢毽子1打羽毛球1滾鐵環總計1531191412218男生126141111516女生127115131712出示問題:(1)男、女生對這些活動的喜好有什么區別?(2)如果你是體育老師,看到這張統計表,你會怎么想?
生1:喜歡打羽毛球和跳長繩的人數最多,可以組織這兩項大課間活動.
生2:體育老師要多準備羽毛球拍和長繩,毽子可以少準備些.
生3:男生可以多組織打羽毛球,女生多組織跳長繩.
生4:還有兩名同學都不喜歡這四個項目,因為全班有55人,而合計只有53人.
又如,讓學生分析如下統計表:
實驗小學各年級(每100人)近視人數統計表
(部分年級)2016年11月
1合計1男生1女生總計198157141三年級12211319四年級131116115五年級145128117師:觀察表中的數據你想到什么?
生1:男生近視的總人數都比女生多.
生2:每個年級近視人數也是男生多于女生.
生3:近視人數五年級最多,年級越高近視人數也越多.
師(追問):大膽猜測,六年級每100人中近視人數可能是多少人?(出示六年級的真實情況)
再次觀察統計表你有什么話說?
生1:要保護眼睛,可能到初中近視的人數會更多.
生2:平常要注意科學用眼.
生3:可能是現在學生經常使用手機,使得近視人數越來越多.
我們可以看到,學生在這樣的分析過程中,不僅能看到眼前的數據信息,還能對數據進行思考,做出簡單的判斷和推理,挖掘到數據背后的信息,充分體會了數據蘊含的豐富信息,學會了多角度分析數據,感受數據對生活的指導意義和預測作用,獲得數據的描述和分析經驗,使得統計意識不斷得到培養和提升.
總之,數學教學中要引導學生多層次地經歷數學學習活動,增強學生的統計意識,掌握統計的方法,感悟數據的價值,提高數據分析的水平,從而有效地培養學生的數據分析觀念,提升學生的數學核心素養.
【參考文獻】
關鍵詞:大數據;政府日常管理;統計改革
0 前言
網絡大數據時代的到來,意味著我國現有信息生產力的水平將會有階段性的突破和提高,大數據不是簡單的海量數據的堆砌,而是包括文本文字、視頻、音頻以及各種零散化、非結構化信息的融合的統稱,通過各種各樣的渠道來搜集大量的信息,針對這些信息采用大數據的分析方式。從海量數據中挖掘出更豐富更精準的信息應用到生產實踐中,而政府日常工作過程中會處理社會各界大量的信息數據,因此,政府統計分析與"大數據"技術的結合,也是時展的必然趨勢。
1 政府統計所面臨的挑戰
多年以來,傳統的政府統計部門一直秉承"為國民經濟發展保駕護航"的原則,而勤勤懇懇的進行工作,且在很大程度上取得了輝煌的成績,從全國人口普查、到四大工程建設,再到GDP數據統計分析、經濟普查等都有政府統計部門辛勤勞作的背影。這樣在很大程度上保障了我國現代化建設在高速發展的同時,也能夠有經驗可依、有數據可分析,避免了盲目發展可能帶來的各種嚴重后果。利用對原有數據的統計分析,改善現今工作,提高工作效率。但隨著社會的快速發展,政府統計工作所面臨的挑戰也越來越多,具體如下:
(1)對政府統計原有工作方式的巨大沖擊
傳統的統計工作方式與現代社會的發展需要越來越顯得格格不入,各種工作模式、工作方法上的弊端導致在信息統計方面的能力日顯乏力,且經過傳統統計工作得出的數據結論與實際情況存在偏差,往往一些統計結果一公布,就會引起社會各界的質疑,這樣不僅降低了統計部門工作的權威性,也從側面損害了政府的權威形象。而大數據的統計處理方式,是運用"互聯網+"、云計算等最新的網絡技術獲取海量的數據,再利用復雜的數學建模、數據挖掘等進行數據分析,技術含量很高、工作方式也全然不同。
(2)對政府統計信息的沖擊
新時代的到來,使得政府的信息搜集來源的廣度大大增加,統計部門的數據搜集工作不再是單一的一家數據服務機構或者是幾家機構進行,而應該將政府內部各個部門之間的非機密數據進行內部共享,讓原本"孤島式"的信息搜集統計方式變成一體化的共享模式。這樣就是對傳統政府統計信息方式的一次徹底顛覆,通過政府內部的數據處理平臺,進行海量的數據交換和傳輸,讓統計部門的數據來源更加豐富,數據的處理工作也更加有效。
2 政府統計的改革方式分析
互聯網時代的到來推動著政府統計部門的巨大變革,這不僅僅是技術、理念層面的變革,更是統計部門人員、工作方式的改變。也是政府整體統計環境的巨大更新。
(一)數據收集環節改革的具體措施
在新的數據統計背景下,統計數據的工作無論是從渠道的建設,還是技術手段的革新,都對傳統的統計工作產生巨大的沖擊,特別是在數據收集環節。數據的收集的理念、方式都應該結合現代社會的發展以及技術的快速更替而進行。大數據時代的數據搜集方式應該更加注重渠道的建設、新技術的應用;例如:"互聯網+"、移動通信網等技術的應用,具體而言就是與搜索引擎公司進行戰略合作,對每天海量的信息數據進行統計分析。另外就是向中央直屬部門報備,要求內部非機密信息的共享,便于統計工作的展開等等。這樣才能夠真正保證數據搜集量的廣度以及真實度。
(二)數據利用環節改革的具體措施
新時期,社會上需要統計的層次以及方面都急劇擴大。傳統的統計分析方式已經不能夠容納海量數據的分析工作。這就需要結合新技術、新模式來對"大數據"技術統計上來海量數據進行分析,從而確保海量的數據能夠被充分的利用,不斷尋找海量數據的統計規律,從而提高信息數據的利用效率。
(1)整合數據。通過各種外部或者政府內部統計搜集的信息數據,通常十分繁雜,無法直接進行有效的應用分析。因此,首先要進行數據歸類,之后形成數據模塊,對不同的數據類型再進行深度分析、挖掘。經過分析之后的有效數據再進行整合,通過結構化或者是非結構化的方式來完成數據的預處理工作,這樣數據的分析才是真實有效的。
(2)推進數據共享。積極探索政府內部數據共享的各項工作,挖掘信息數據的內在價值,幫助部門與部門之間的信息能夠得到有效利用,使得數據共享之后能夠起到1+1>2的效果。
(3)開發更有技術含量的統計產品。政府統計部門通過大量工作得出的結果就是統計產品。統計產品主要包括各項經濟指數、民生指數、分析報告、專題調研報告等。在大數據的時代背景下,應該開發擁有更多技術含量、簡單易懂的統計產品,同時注重統計產品的質量以及真實程度,使新技術的應用能夠真正服務為民。
3 結語
綜上所述,政府統計部門的技術改革以及大數據研究模式的改革要同步進行,這樣才能夠保證統計數據的真實性、可靠性。為政府其他部門的決策研究提供有力的數據參考。
參考文獻:
【關鍵詞】 出租車軌跡 R語言 數據分析 數據建模
一、設計內容
在本設計中我們將利用GPS設備得到出租車的在載客數據,在得到的數據非常的復雜,而且數量非常的大,在對數據進行分析之前,要對數據進行預處理,把不合適的數據進行數據,之后找到數據之間的關系,對數據分析和建模。
二、本設計的組織結構
(1)出租車軌跡數據分析和處理。在得到出租車的數據時,通過對軌跡數據的分析,在對數據的采集的情況下,由于可能因為外界的因素,造成數據的采集出現問題,因此在數據處理之前要對數據進行預處理,將不合適的數據進行刪除或者修改。
(2)搜索和可視化。在數據導入時,完成了對數據的分析和處理,之后通過R語言軟件對數據進行匯總統計和繪圖,數據更好的理解是為之后正確的建模做準備。
(3)分析和建模。在使用匯總統計和圖形能更好的幫助我們理解數據,但他們有一定的局限性。統計數據不能告訴你數據的形狀,而圖形不能擴展到多個變量,他們在數量上也不能擴展,而且統計數據和圖形都不能從數據中預測什么,所以通過建模,對相關數據進行定量判斷而做出預測,構建可視化圓形系統,實現出租車軌跡數據的可視化分析。
三、數據來源及基本特征
數據的來源很多,R內置有很多數據集而在其他的附件包中能找到更多的數據,在本設計中的數據時利用GPS設備,將GPS設備安裝在各個出租車上,將采集得到城市出租車的載客的數據,其中可以采集得到一個固定地點的出租車的載客數據,也可以得到在流動的地點的出租車的載客數據,以及在同一個時間的不同出租車的載客數據,一個出租車的在不同時間的相同地點的運行狀態。
四、數據處理結果
4.1 k-means算法
k-means算法有k個輸入量;然后將n個數據對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用聚類中各個對象的均值來獲得一個中心的對象,以及來計算中心對象的坐標。
k-means算法的工作過程說明如下:首先從n個數據對象任意選擇 k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數. k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。
4.2模型的建立
假設給定數據集X={,i=1,2,,4…n}其中還有m個樣本描述。
K個聚類中心分別為
兩樣本之間的歐氏距離為d( )=
再有評價準則函數T=
最后得到k個聚類中心
4.3模型求解
根據出租車載客的數據,對數據進行分析,篩選出擁擠的路段和時段,而擁擠的標準可以自己設定,根據整個蘭州城市的交通考慮,給出擁擠的標準和時間段,根據所有數據通過excel篩選出需要的時間段,并對數據進行分析,根據excel篩選出的數據應用matalb仿真軟件對在確定的時間段畫出速度圖,根據速度的大小標準來確定交通的擁擠狀況。
五、結論
在周末節假日的出租車的全天的任務量,載客的距離(任務量),運營時間,明顯的高于平常,因此城市的相關部門應該對數據分析,找到合適的出租車的調度,和運行措施來減少出租車的空駛,提高出租車的運行比率,以及減少出租車的空駛浪費。來解決群眾上下班時段一車難求、高峰時段還常遇拒載、等問題,同時群眾可以根據分析得到的數據進行分析,自己選擇相應的出行方式與時間。
總結:本設計采用數據分析及處理,在將得到的GPS軌跡數據進行分析,處理,借助可視化的方法,利用地圖匹配,matalb軟件,R語言軟件對數據進行分析,在不同的時間段內,人們的出行狀況,以及在不同地方交通的狀況,交通潛在的規律及其特征進行分析,在所得到數據很難看到這個,所以利用這些軟件對數據可視化分析,分析得到的結果可以直觀的看到出租車的變規律,為人們的出行提供更方便的條件。
參 考 文 獻