前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇大數據時代的應用范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
關鍵詞:大數據 數據挖掘 挖掘技術
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2016)05-0000-00
1數據挖掘與數據挖掘技術的方法分析
“數據海量、信息缺乏”是相當多企業在數據大集中之后面臨的尷尬問題,由此而誕生的數據挖掘技術其實就是用以處理這一尷尬問題的技術。數據挖掘實際上是相對比較新型的一門學科,在幾十年的發展過程中,已經不可同日而語。其實數據挖掘技術的本質就是人工智能技術,而數據挖掘技術的利用相對應的就是指人工智能技術的開發與應用,也就是說數據挖掘其實是依賴技術的提升來實現數據的整體創新的技術,所以,整個數據挖掘技術實際上是非常具有信息價值的,它能夠幫助決策者更快的得到重要信息并作出決策,提高效率和準確率,是非常重要的知識憑證,能夠在一定程度上提高當下企業的整體競爭力。
數據挖掘技術的核心就是分析,通過分析方法的不同來解決不同類別的問題,以實現數據挖掘的潛在內容。簡單來說就是對癥下藥以保證藥到病除。
1.1聚類分析法
簡單來說聚類分析就是通過將數據對象進行聚類分組,然后形成板塊,將毫無邏輯的數據變成了有聯系性的分組數據,然后從其中獲取具有一定價值的數據內容進行進一步的利用。由于這種分析方法不能夠較好的就數據類別、屬性進行分類,所以聚類分析法一般都運用在心理學、統計學、數據識別等方面。
1.2人工神經網絡
人工神經網絡是通過大批量的數據進行分析,而這種數據分析方式本身是建立在一定的數據模型基礎上的,因此通常都可以隨時根據數據需求進行分類,所以人工神經網絡也是當下數據挖掘技術中最常用的一種數據分析方式之一。
1.3關聯性分析法
有時數據本身存在一定的隱蔽性使得很難通過普通的數據分析法進行數據挖掘和利用,這就需要通過關聯性分析法完成對于數據信息的關聯性識別,來幫助人力完成對于數據分辨的任務,這種數據分析方法通常是帶著某種目的性進行的,因此比較適用于對數據精準度相對較高的信息管理工作。
1.4特征性數據分析法
網絡數據隨著信息時代的到來變成了數據爆炸式,其數據資源十分廣泛并且得到了一定的普及,如何就網絡爆炸式數據進行關于特性的分類就成為了當下數據整理分類的主要內容。在上文中提到的人工神經網絡數據分析也屬于這其中的一種,此外還有很多方法都是通過計算機來進行虛擬數據的分類,尋找數據之間存在的普遍規律性完成數據的特性分析從而進行進一步分類。
2大數據時代下數據挖掘技術的具體應用
數據挖掘技術的具體流程就是先通過對于海量數據的保存,然后就已有數據中進行分析、整理、選擇、轉換等,數據的準備工作是數據挖掘技術的前提,也是決定數據挖掘技術效率及質量的主要因素。在完成數據準備工作后進一步對數據進行挖掘,然后對數據進行評估,最后實現運用。因此,數據挖掘能夠運用到很多方面。
2.1市場營銷領域
市場營銷其實就是數據挖掘技術最早運用的領域,通常根據客戶的具體需求,進行客戶分析,將不同的消費習慣和消費特點的客戶進行簡單的分類管理,以此來保證商品能夠順利銷售,并提高個人銷售的成功率和業績。而銷售的范圍也從最初的超市購物擴展到了包括保險、銀行、電信等各個方面。
2.2科學研究領域
科學研究與實驗測試等都需要對數據進行關系分析為進一步的實驗和總結失敗做準備,而實驗測試和科學研究產生的數據往往是巨大的,因此數據挖掘技術在科學研究領域也得以廣泛運用。通常都是通過科學研究內容選擇數據挖掘技術分析法進行計算來找到數據中存在的規律,實現數據挖掘的部分價值――科學知識的分析與運用。
2.3電信業領域
隨著信息化時代的到來,電信產業也飛速發展起來,到目前為止,電信產業已經形成了一個巨大的網絡信息載體,如何將其中信息數據進行整合就成為電信產業發展過程中的重要問題。而數據挖掘技術的運用則在一定程度上解決了這一問題,大量的數據通過數據挖掘技術得到了有效分類,并在這個過程中通過運算得出數據之間的關聯性,運用規律進一步進行數據分類。
2.4教育教學領域
教學評價、教學資源、學生個人基本信息等組成了教育教學領域的數據庫,利用數據挖掘技術來實現教學資源的優化配置,對學生的個人信息整理歸檔,從而保證教育教學領域中數據整理的良好運作。
3結語
綜上所述,數據挖掘技術對于當今社會的發展有著不可替代的作用,而如何改善當下數據挖掘技術中存在的問題,進一步提高數據挖掘技術的質量和效率就成為了數據挖掘技術進步的方向。本文通過對于數據挖掘與數據挖掘技術的方法分析和大數據時代下數據挖掘技術的具體應用兩個方面對于數據挖掘技術進行了簡要的闡述和分析,相信在未來伴隨著科學技術的進一步發展,數據挖掘技術也將更加強大。
參考文獻
[1]程軍鋒.Web數據挖掘研究[J].重慶三峽學院學報,2013(03).
[關鍵詞]大數據 大數據思維 鐵路創新發展
中圖分類號:TM76;TM63 文獻標識碼:B 文章編號:1009-914X(2016)25-0373-03
1 引言
半個世紀以來,隨著人類對自然和社會認識的進一步加深及人類活動的進一步擴展,科學研究、互聯網應用、電子商務、移動通信等諸多應用領域產生了多種多樣的數量巨大的數據。這不僅使得世界充斥著比以往更多的信息,而且其增長速度也在加快。信息總量的變化最終導致了質變,最先經歷信息爆炸的學科,如天文學和基因學,創造出了“大數據”這個概念。時至今日,這個概念幾乎已應用到了所有人類致力發展的領域中。大數據(BIG DATA)的出現對傳統的數據存儲、數據處理和數據挖掘提出了新的挑戰,同時也深刻地影響著人類的生活、工作和思維。
2 什么是大數據
2.1 大數據的概念
說起大數據,從字面意思來講就是巨量數據集合,到底有多大?可能很多人并沒有很具體的概念。一組名為“互聯網上一天”的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當于美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當于《時代》雜志770年的文字量);賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數量37.1萬。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當于全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。
然而大數據并非一個確切的概念。對于“大數據”(Big data)研究機構Gartner給出了這樣的定義?!按髷祿笔切枰绿幚砟J讲拍芫哂懈鼜姷臎Q策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。而麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模(Volume)、快速的數據流轉(Velocity)、多樣的數據類型(Variety)和價值密度低(Value)四大特征,即4V特征。在維克托?邁爾-舍恩伯格及肯尼斯?庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而采用所有數據進行分析處理。業界學者楊善林認為在海量數據的量化基礎上,同時具備大分析(Big Analytics)、大帶寬(Big Bandwidth)、大內容(Big Content)等三大要素的巨大數據集。謝國忠則認為大數據的本質是利用企業內部信息,將龐大的信息進行有效整合,并結合新的數據類型為企業創造價值。
2.2 大數據的特點
大數據有有它自己的特征。目前工業界普遍認為大數據具有 4V+1C 的特征:
(1)數據量大(Volume)。存儲的數據量巨大,拍字節級別是常態,因而對其分析的計算量也大。
(2)多樣(Variety)。數據的來源及格式多樣,數據格式除了傳統的格式化數據外,還包括半結構化或非結構化數據,比如用戶上傳的音頻和視頻內容,而隨著人類的活動的進一步拓寬,數據的來源更加多樣。
(3)快速(Velocity)。數據增長速度快,同時要求對數據的處理速度也要快,以便能夠從數據中及時地提取知識,發現價值。
(4)價值密度低(Value)。需要對大量的數據處理挖掘其潛在的價值,因而,大數據對我們提出的明確要求是設計一種在成本可接受的條件下,通過快速采集、發現和分析從大量、多種類別的數據中提取價值的體系架構。
(5)復雜度(Complexity)。對數據的處理和分析難度大。
IBM在此基礎上又提出了5V特征,即在4V的基礎上增加了真實性(Veracity)。
3 什么是大數據思維
要想大數據為人所用, 必須改變原有對數據的認識,將大數據與創意結合,并能充分利用數據分析技術,為企業和國家決策提供依據。大數據研究專家維克托?邁爾-舍恩伯格指出,大數據時代,人們對待數據的思維方式會發生如下三個變化:第一,人們處理的數據從樣本數據變成全部數據;第二,由于是全樣本數據,人們不得不接受數據的混雜性,而放棄對精確性的追求;第三,人類通過對大數據的處理,放棄對因果關系的渴求,轉而關注相關關系。事實上,大數據時代帶給人們的思維方式的深刻轉變遠不止上述三個方面。我認為,大數據思維最關鍵的轉變在于從自然思維轉向智能思維,使得大數據像具有生命力一樣,獲得類似于“人腦”的智能,甚至智慧。
大數據思維是一種總體思維。過去,人們對搜集數據、處理數據形成了一個思維定勢,那就是我們不可能搜集到相當多數量的數據,我們只能在力所能及的條件下選擇一小部分去分析和處理,為了讓數據處理變得更簡單,對數據的選擇就盡可能到最少,也由于當時信息處理水平的限制,導致所選的數據不具備代表性,盲目因素太多。當我們進行抽樣調查來分析數據的時候,往往會以調查問卷的形式選擇一部分樣本進行分析,這為人們提供了不少的便捷,但相應的缺點也是一覽無余,這種樣本分析法不管你有多深入的去挖掘,它都只能代表總體數據中的一小部分,不能代表全部數據,也許樣本調查的準確性會達到90%以上,但是依然會遺漏一些很有價值的數據,就會導致數據的失真。但是隨著大數據時代的到來,我們可能還沒有意識到我們已經具備處理和分析大數據的能力,我們的思維正在一點點的改變,首先,我們不能一直依靠對小部分數據樣本進行分析,而是轉向為分析全部數據。
大數據思維是一種容錯思維。在小數據時代,由于收集的樣本信息量比較少,所以必須確保記錄下來的數據盡量結構化、精確化,否則,分析得出的結論在推及總體上就會“南轅北轍”,因此,就必須十分注重精確思維。然而,在大數據時代,得益于大數據技術的突破,大量的非結構化、異構化的數據能夠得到儲存和分析,這一方面提升了我們從數據中獲取知識和洞見的能力,另一方面也對傳統的精確思維造成了挑戰。維克托?邁爾-舍恩伯格指出,“執迷于精確性是信息缺乏時代和模擬時代的產物。只有5%的數據是結構化且能適用于傳統數據庫的。如果不接受混亂,剩下95%的非結構化數據都無法利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶”。也就是說,在大數據時代,思維方式要從精確思維轉向容錯思維,當擁有海量即時數據時,絕對的精準不再是追求的主要目標,適當忽略微觀層面上的精確度,容許一定程度的錯誤與混雜,反而可以在宏觀層面擁有更好的知識和洞察力。
大數據思維是一種相關思維。在小數據世界中,人們往往執著于現象背后的因果關系,試圖通過有限樣本數據來剖析其中的內在機理。小數據的另一個缺陷就是有限的樣本數據無法反映出事物之間的普遍性的相關關系。而在大數據時代,人們可以通過大數據技術挖掘出事物之間隱蔽的相關關系,獲得更多的認知與洞見,運用這些認知與洞見就可以幫助我們捕捉現在和預測未來,而建立在相關關系分析基礎上的預測正是大數據的核心議題。通過關注線性的相關關系,以及復雜的非線性相關關系,可以幫助人們看到很多以前不曾注意的聯系,還可以掌握以前無法理解的復雜技術和社會動態,相關關系甚至可以超越因果關系,成為我們了解這個世界的更好視角。維克托?邁爾-舍恩伯格指出,大數據的出現讓人們放棄了對因果關系的渴求,轉而關注相關關系,人們只需知道“是什么”,而不用知道“為什么”。我們不必非得知道事物或現象背后的復雜深層原因,而只需要通過大數據分析獲知“是什么”就意義非凡,這會給我們提供非常新穎且有價值的觀點、信息和知識。也就是說,在大數據時代,思維方式要從因果思維轉向相關思維,努力顛覆千百年來人類形成的傳統思維模式和固有偏見,才能更好地分享大數據帶來的深刻洞見。
大數據思維是一種智能思維。大數據使得人可以被量化,但卻讓計算機更具智能。工業革命使得需要人完成的工作只用機器就可以完成了,但大數據卻可以使得機器有了分析問題的能力。衛星定位系統積累的大量數據,可以制作電子地圖和導航,還可以通過分析數據開發出無人駕駛汽車,讓機器變得擁有智慧。如何讓計算機擁有智慧,除了要擁有大數據外,必須變革思維,創新分析思路與過程,不斷探索新的方法,讓堆積如山的數據不斷創造新的價值。例如手機上常用的地圖軟件,可以搜索很多路況同步數據,為用戶提供出行信息。這只是大數據最基礎的應用,繼續延伸, 是否可以根據上下班時段的交通流量估算失業率;是否可以通過對主要商圈的監控估算消費情況;是否可以將廢棄的數據重新創造價值;是否可以利用用戶在拼寫過程中的拼寫錯誤讓拼寫檢查軟件更優化;是否可以通過分析各實體和產業之間的關聯關系,預測各行業發展趨勢,找出關鍵影響因素;是否可以分析顧客的偏好,量體裁衣式的為顧客提供更好的服務; 是否可以運用大數據模擬現實情境,發掘出新的需求和更好的回報;是否可以創新大數據的使用模式,將大數據深加工,用戶可以很方便地結合自身情況選擇適合自己的產品。
4 建立大數據思維促進中國鐵路創新
4.1 以數據為核心
大數據時代,計算模式也發生了轉變,從“流程”核心轉變為“數據”核心。Hadoop體系的分布式計算框架已經是“數據”為核心的范式。非結構化數據及分析需求,將改變IT系統的升級方式:從簡單增量到架構變化。例如:IBM將使用以數據為中心的設計,目的是降低在超級計算機之間進行大量數據交換的必要性。大數據下,云計算找到了破繭重生的機會,在存儲和計算上都體現了數據為核心的理念。大數據和云計算的關系:大數據與云計算是一個問題的兩面,一個是問題,一個是解決問題的方法。而大數據比云計算更為落地,可有效利用已大量建設的云計算資源,最后加以利用。中國鐵路信息化歷經50余年的發展,取得廣泛的應用,擁有海量的資源,大數據將成為推動中國鐵路創新發展的新引擎。隨著中國鐵路信息化的到來,中國鐵路發展的戰略需求也發生了改變,數據的處理分析成為了一個關注重點,軟件也將從編程為主轉變為以數據為中心。如何高效地從海量數據中分析、挖掘所需的信息和規律,結合已有經驗和數學模型等生成更高層次的決策支持信息,獲得各類分析、評價數據,為設備管理、網絡狀態評估等提供決策支持,為鐵路工作人員提供有用信息,成為鐵路未來發展的趨勢。
4.2 全樣本考慮
統計學里頭最基本的一個概念就是,全部樣本才能找出規律。為什么能夠找出行為規律?一個更深層的概念是人和人是一樣的,如果是一個人特例出來,可能很有個性,但當人口樣本數量足夠大時,就會發現其實每個人都是一模一樣的。在大數據時代,無論是商家還是信息的搜集者,會比我們自己更知道你可能會想干什么。現在的數據還沒有被真正挖掘,如果真正挖掘的話,通過信用卡消費的記錄,可以成功預測未來5年內的情況。大數據的核心就是預測,大數據能夠預測體現在很多方面。大數據不是要教機器像人一樣思考,相反,它是把數學算法運用到海量的數據上來預測事情發生的可能性。正因為在大數據規律面前,每個人的行為都跟別人一樣,沒有本質變化。例如:大數據助微軟準確預測世界懷。微軟大數據團隊在2014年巴西世界足球賽前設計了世界懷模型,該預測模型正確預測了賽事最后幾輪每場比賽的結果,包括預測德國隊將最終獲勝。預測成功歸功于微軟在世界杯進行過程中獲取的大量數據,到淘汰賽階段,數據如滾雪球般增多,常握了有關球員和球隊的足夠信息,以適當校準模型并調整對接下來比賽的預測。世界杯預測模型的方法與設計其它事件的模型相同,訣竅就是在預測中去除主觀性,讓數據說話。利用大數據技術可以從鐵路的客票系統、貨票系統、貨運電子商務平臺、運輸信息集成平臺等信息系統采集海量的原始信息,這些信息可以為市場分析和預測提供有力的支撐。與傳統方法側重于對調查抽樣統計數據的分析不同,基于大數據技術的市場分析和預測技術既能夠利用上述海量數據,分析客、貨運量完整全面的變化過程,深入挖掘運量變化的規律性,進而預測市場的未來走勢;還能夠利用GPS、傳感器等物聯網手段采集獲取精細的運輸數據,并且通過互聯網接入的政治、經濟、其他交通方式、氣候等影響因素數據,將旅客和貨物流量流向的精細化分析與影響因素關聯性分析相結合,挖掘各影響因素對鐵路運量變化影響的方向和時滯,量化各因素對運量變化的影響。在對典型設備故障診斷與狀態預測方面,可以綜合利用GSM-R接口監測數據、網絡管理信息、場強和服務質量動態檢測數據、無線干擾檢測監測數據等數據源,采用數據挖掘技術,研究監測檢測數據綜合分析方法、多源數據關聯分析方法和適用于通信業務數的故障診斷分析方法,建立典型故障診斷模型、GSM-R網絡QoS測試綜合評價模型、CTCS-3列控系統降級故障表示模型等,對列車控制的車載系統、地面控制系統、無線通信網絡交互作用進行可靠性評估和故障綜合診斷,為列車控制系統降級原因分析、GSM-R網絡維護、網絡優化等提供支持。
4.3 用信息找人
互聯網和大數據的發展,是一個從人找信息,到信息找人的過程。先是人找信息,人找人,信息找信息,現在是信息找人的這樣一個時代。信息找人的時代,就是說一方面我們回到了一種最初的,廣播模式是信息找人,我們聽收音機,我們看電視,它是信息推給我們的,但是有一個缺陷,不知道我們是誰,后來互聯網反其道而行,提供搜索引擎技術,讓我知道如何找到我所需要的信息,所以搜索引擎是一個很關鍵的技術。例如:從搜索引擎――向推薦引擎轉變。今天,后搜索引擎時代已經正式來到,什么叫做后搜索引擎時代呢?使用搜索引擎的頻率會大大降低,使用的時長也會大大的縮短,為什么使用搜索引擎的頻率在下降?時長在下降?原因是推薦引擎的誕生。就是說從人找信息到信息找人越來越成為了一個趨勢,推薦引擎就是說它很懂我,知道我要知道的東西。例如,我們結合12306網站數據及實名制購票資料,對出行旅客的個人信息、出行線路、出行時間周期進行的統計分析,同時借助互聯網大數據預報人員遷徙情況,最后完全勾勒出旅客的需求,使鐵路可以充分了解每一位旅客,實時的知道他們旅行目的地,以及出發時間及需要的服務層次,有針對性地推送一些旅游服務、餐飲、住宿、景觀等方面的產品,使得營銷工作更加精準,營銷效率也更高。
5 大數據思維帶來的挑戰
大數據的發展速度有目共睹,想要在競爭社會中走的更遠,人人都需要建立大數據思維。那么在建立大數據思維中,有哪些挑戰呢?
第一,大數據應用和商業回報間的矛盾。未來的大數據應用一定是可定制的、可在云上打包的服務,即將業務、數據、分析能力多面定制,一起打包。企業需要可快速部署和有明確投資回報率的應用,這涉及到數據的質量和豐富度及業務人員對數據的依賴度。這需要企業內各個部門的有效協作,并規避無法確定的風險,比如分析結果的不確定性,業務場景的復雜性,人員的能力缺失等。傳統手段,比如通過社交媒體、郵件、網絡文本等獲得的數據量非常龐大,但解破這些數據的關系和價值卻給企業帶來巨大挑戰。企業希望成為數據的主人,但在辨析數據的有效性、能帶來哪些商業回報,以及如何幫助決策等方面卻缺乏有效工具。
第二,海量數據與核心數據間的矛盾。要做大數據,首先要了解自己的企業,或者企業所在的行業的核心是什么。我們發現,有很多企業在競爭過程中,最終不是被現有競爭對手打敗,而是被很多潛在未知的競爭對手打敗的。舉例來說,大部分人都認為亞馬遜是做電商的,但其實亞馬遜現在最主要的收入來自云服務,也就意味著亞馬遜的核心數據(價值)是云服務。只有在此基礎上,亞馬遜建立的大數據才是有效的、服務于戰略的。
第三,內部數據與數據間的矛盾。企業所獲取的數據,很大一部分是內部數據,這讓企業面對另一個挑戰,如何讓內部數據與相關數據產生聯系并使之成長。只有讓內外部數據的交融在用戶場景中,才能為業務用戶描繪更精準的業務發展空間。
第四,規律發現和規律失效間的矛盾。調研顯示,從大數據應用總結出的規律來看,建立失效預警是特別必要的。當企業通過大數據分析發現一個規律,并在現實中應用時,必須要設立一些預警指標。當指標達到一定程度,既表明之前發現的規律已經失效,必須發現新的規律、建立新相關指標,這稱為數據價值的有效性。沒有根據實際應用場景的變化而及時更新的數據,挖掘得再多都是無謂的浪費,熟練應用失效預警,企業才能培養起團隊對數據真實有效的敏感性。
6 結語
大數據思維把人們從舊的發展觀、價值觀中解放出來,復雜技術的涌現和科技進步促使人們開始從大數據思維視角重新審視世界,從而獲取正確理解世界的角度性工具。大數據思維是客觀存在,大數據思維是新的思維觀。用大數據思維方式思考問題,解決問題是當下企業潮流。中國鐵路正處于加快轉變發展方式的新形勢下,為了適應市場化經營要求,構建鐵路運輸企業的核心競爭力,提升鐵路的持續發展能力和盈利能力,應用大數據思維去推動鐵路創新發展具有極其重要的現實意義。
參考文獻:
[1]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域――大數據的研究現狀與科學思考[J].中國科學院院刊.2012(06)
[2]孟小峰,慈祥.大數據管理: 概念、技術與挑戰[J].計算機研究與發展,2013,50(1)
[3]王衛東,徐貴紅,劉金朝,張文軒,邢小琴.鐵路基礎設施大數據的應用與發展[J].2015(05)
[4]維克托?舍恩伯格,肯尼斯?庫克耶.大數據時代[M].杭州:浙江人民出版社,2013.
[5]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報. 2013(06)
[6]劉婷,徐寰春.淺析大數據時代背景下智慧城市規劃[J].智能城市.2016(09)
[7]李藝杰.淺談大數據時代數據信息現狀及發展[J].中國新技術新產品. 2014(15)
[8]馮永強,張良,馮怡,朱尚杰.大數據應用的現狀與展望[J].信息化建設. 2015(12)
[9]張保國.淺議大數據在公交經營管理中的應用[J].城市公共交通.2016(03)
[10]方巍,鄭玉,徐江.大數據:概念、技術及應用研究綜述[J].南京信息工程大學學報(自然科學版).2014(05)
[11]鄔賀銓.大數據時代的機遇與挑戰[J].求是.2013(04)
[12]王浩,張怡.大數據時代下人類思維方式變革的趨勢[J]. 新西部(理論版). 2015(02)
[13]張康之,張桐.大數據中的思維與社會變革要求[J]. 理論探索. 2015(05)
【關鍵詞】大數據時代,地理信息系統,應用
前言
從目前的實際角度來說,大數據時代下的地理信息系統的應用研究已經成為了當代地理學術方面重要的研究應用,下面我們就對大數據下的地理信息系統的應用進行分析和簡述。
一、大數據對地理信息系統發展的重要性。
在目前社會經濟、科技不斷的發展的大環境下,大數據時代已經悄然到來,從某種意義上來說,地理信息的測繪部門和相應的技術在某方面來說受到了重大的影響和挑戰,如果我們可以合理的對大數據技術進行應用,那么我們就可以起到一個推進器的作用,從而推動地理測繪信息部分和機構的發展,但同時,我們要注意一點,從目前階段我國的測繪地理信息機構已經開始重視大數據技術,并且已經在這個基礎上進行了地區檢測,如果地理信息系統部分和機構可以在工作中加入大數據幾乎,那么大數據會讓地理信息部門和機構的工作變得更加便捷。大數據技術讓地理信息行業發生了天翻地覆的變化,一方面,許多專業和學者都希望在大數據技術的環境下對地理信息系統中施展拳腳。另一方面,大數據有效的促進了企業的發展和變革,最后。大數據時代下,他的商業價值無法估量他的潛力無疑是巨大的,我們應該進行具體的探究和思考,然后完成一系列的轉型,讓技術和管理之間聯系密切,把握住商機,獲得足夠的發展空間,為地理信息行業取得良好發展做出一定程度上的探路。
二、大數據背景下地理信息系統所要接受的挑戰。
(一)地理空間數據為什么一直在持續的增加?因為從目前來看,我國的地理空間數據處理在速度方面在不斷的增加,在這個不斷加快的過程中,地理空間數據的結構化特點就會凸顯出來,所以這個情況我們要及時的針對好,利用地理空間數據整體的特點,來進行大數據空間存取技術的大范圍普及和使用,經過我們反復的實踐和分析下,可以得出一個結論,那就是當前地理信息系統在目前的大數據技術時代下面臨著嚴峻的挑戰,其中最大的問題是在于是否我們可以有效的實現數據信息空想以至我們可以完成大數據文件管理和大數據文件的保護,同時可以在面對眾多文件和重復數據的情況下,進行科學有效的整理,保證自身的效率和存儲質量。
(二)我們還有一個數據整理的問題要進行分析,眾所周知,大量的地理信息,地理信息心痛可以系統的進行數據信息或者別的途徑來進行信息上的獲取,但是目前傳統的組織方法和處理方法等不能適應現在的大數據結技術的走向,在這樣的背景下,我們要最大限度的提高自身的基礎性數據的效率,我們要最大程度的進行有效的提升基礎性數據更新效率能力,從而有效的滿足用戶需求,從而逐漸在這個大時代背景下被人們所重視。
三、大數據在地理信息系統的應用分析
(一)首先大數據在地理信息系統的應用,完美的提高了地理信息系統的高效存儲能力,隨著目前科技的飛速發展下,計算機的硬件設備已經呈現出了頹勢,已經不能和以往相比了,對于計算機的存儲也已經變的更加的簡單,特別要注意的是,計算機標配硬盤的容量一般都符合原定的標準要求,單體磁盤的服務器標準容量可以達到30TB,但是在客觀世界的影響下,我們通常所說的地理信息系統經常在應急保障方面和實時導航上已經獲得了社會等廣泛的應用所以這就要求了數據的存儲量變得越來越高,相反,如果儲存量越來越低,那么地理信息系統會受到打擊,所以這樣說來數據庫就要多個類型的數據支持和結構化的數據支持才行。
(二)在大數據的時代背景下,我們要進行數據庫的擴展和升級,因為從目前來看,大數據背景下基礎性的數據量已經發展的速度越來越快,如果不升級就導致了無法進行信息的及時更新容納。從目前來看,F階段的數據庫使用,關系類型的數據庫比較常用而且硬件的升級也是十分重要,他在一定程度上,有利于數據庫進行采分割擴展和非規范擴展等。升級硬件設備會花費大量的資金,同時,數據庫的服務器性能和容量提升的空間也很小,而數據庫分割不適合非結構化數據,我們要進行進一步的程序修改,這就導致了程序和模型的獨立性受到了破壞,然而非規范化的處理,可以增加大量冗余的同時來實現一致性的難度大幅度增加,由此可見,我們必須要爭地理信息系統的數據庫進行水平發展,才能保證他有足夠的伸縮性和擴展性。
四、結語
地理信息系統的工作是大量存取數據等任務,隨著目前我國的科技在不斷的發展和生活水平不斷提高的大前提下,我們應該對地理信息系統進行重視,眾所周知,大數據是地理信息系統中最重要的組成部分,(其內容為遙感技術、地理信息采集等)所以在大數據的前提背景下,地理信息系統的未來有著廣闊的前景,在未來的發展中地理信息系統會出現質的飛躍。
參考文獻:
[1] 鐘耳順,楊?;? 地理信息數據化 開創GIS輝煌時代――訪中國科學院地理信息研究所專家、北京超圖地理信息技術有限公司董事長[J]. 中國新技術新產品精選,2007,(05):5-6.
[2] 陳戈,方朝陽,喬新,李海濤,張彩云,陳勇,韓冬. 一個基于衛星遙感數據的海洋大氣地理信息系統平臺軟件――MAGIS [J]. 中國海洋大學學報(自然科學版),2004,(09):31-32.
[3] 高盼. 立得空間:從行業"拓荒"到引領地理信息大數據時代――專訪立得空間董事長兼總裁郭晟[J]. 中國信息界,20164,(07):25-26.
關鍵詞:大數據;學校學生成績管理;成績數據分析
中圖分類號:G632 文獻標識碼:B 文章編號:1002-7661(2015)09-224-03
有人在葡萄酒釀造出之前就能知道其品質的好壞;
有人在購買機票之前就能知道機票價格的漲跌范圍……
他們是怎么知道的?
相親網站知道什么樣的人適合做你的人生伴侶;
谷歌、百度可以根據你的搜索把你最想看到的東西排在最前面……
他們是怎么做到的?
這就是“大數據”給我們展示的神奇時代。就連奧巴馬大選成功的勝利果實也被歸功于大數據,因為他的競選團隊進行了大規模深入的數據挖掘,通過分析選民的意向,知道哪些是鐵桿粉絲,哪些能成為鐵桿粉絲,哪些即使花了時間和精力也不能轉換陣營的。時代雜志更是斷言,依靠直覺與經驗進行決策的優勢急劇下降,在各項領域,大數據的時代已經到來。
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,他稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。首先,大數據改變了我們的思維方式,讓我們從因果關系的串聯思維變成了相關關系的并聯思維。第二,大數據改變了我們的生產方式,物質產品的生產退居次位,信息產品的加工將成為主要的生產活動。第三,大數據改變了我們的生活方式,我們的精神世界和物質世界都將構建在大數據之上。大數據不僅僅是一門技術,更是一種全新的商業模式,它與云計算共同構成了下一代經濟的生態系統――一切皆信息。
作為數學專業出身的我校校長徐小祥,天生對數據有強烈的敏感性。在他的學校管理中,對學生成績充分利用了數據的處理分析功能,并以此數據作為學生趨勢發展的指揮棒和教師考核的依據。對于學生成績數據我校主要進行了以下分析應用:
一、本?;境煽兎治鰬?/p>
每次檢測后,各班各學科任課教師將學生成績輸入進校園網成績管理系統。系統自動完成以下功能。
1、班級各學科平均分。
2、學科班級優秀率(單科全校前160名且總分全校前240)。例如:
3、學校班級總分段:每個班總分各分數段人數統計
4、班級單科分數段。例如:
5、歷次考試全校各班前160、180、200名人數對比。例如:
6、全校前160名成績冊
7、全校各班成績冊
通過以上分析了解本校各班各科的教學情況,通過人數的對比了解整個初中階段的變化。橫向縱向的分析使全校師生都有一個清晰的認識。
二、校間對比成績分析應用
1、總分分數段對比
2、各科分數段、平均分對比
3、校合并總分前20名學生名單
4、“全校有效分人數”和“入圍有效分人數”的計算
(1)合并后前360名各科有效分
大體上看,共有六步驟:
第一步:確定“總分有效分”(錄取分)。就是根據市高中上年的錄取人數,確定本次考試的達線分,此分即為總分有效分。比如上一年市高中統招錄取為360人,就以第360名學生的總分為分數線,假設第360名學生總分為504分,504分即為本次考試的總分有效分。
第二步:計算“總分平均分”和各科平均分。將前360名學生的總分平均分計算出來,數值為536.4分;前360名學生各科平均分語文為91.2,數學為103.4,英語為110.5,物理為80.9,化學為82.2,政治為16.0,歷史為52.2。
第三步:計算“差距值”。 差距值就是第一步和第二步的差,將536.4減去504,差距值為32.4。
第四步:計算“權重”。 權重和是各門學科在考試中所占的分值百分點之和。如物化是100分的話,學科權重都為1;語數外是120分的話,權重都為1.2;其它學科類推。以九年級為例,語數外各120分,物化各100分,政治20分,歷史60分,按次序權重計算公式為權重和=1.2+1.2+1.2+1+1+0.2+0.6,九年級考試的權重和為6.4。
第五步:計算各科“權重比”。利用各科所占權重比例,比如語文學科
權重比例=1.2/6.4,以下簡稱比例,利用第三步的計算結果,計算出權重比=差距*比例 ,按照上面的計算結果,語文權重比為32.4*1.2/6.4=6.1。
第六步:計算“各科有效分”。各科有效分=各科平均分-權重比,假設語文平均分為91.2分,那么語文學科本次考試的有效分為91.2分減去6.1,結果為85.1分。
綜合以上,前面的兩步是針對總分來計算的,為后面的分科計算,綜合權重比后折射到各學科打下基礎,第四第五步是考慮各科權重,然后結合第三步的差距,得到學科權重比,各科平均分與它相減就是“各科有效分”。它是本主題最重要的數據。
有了各學科有效分,考核表中的“全校有效分人數”和“入圍有效分人數”的得出就水到渠成了――以上面語文學科結果85.1分為例,“全校有效分人數”是指全校各班語文在85.1分以上人數,“入圍有效分人數”是指全市錄取的360名學生中本校各班語文在85.1分以上的人數。
比率1=校內有效人/考試人數
比率2=360有效人/入圍人數
(2)兩校合并后各班在有效分以上的人數
(3)兩校合并后前360名各科在有效分總人數與他校對比
(4)現九年級歷次考試前160、180、200、220名人數變化表
通過以上分析,了解本校與兄弟學校的差距,有重點有計劃地對薄弱環節進行強化訓練。
三、進一步分析平均分和優秀人數,對教師進行考核
1、平均分模擬考核:對各學科各班的平均分考核。例如:
說明:
(1)入學平均分或接班平均分:初一進校時候的平均分。若是中途接班,則按照上次考試的平均分計算。例如有的老師是從八年級開始接班的,那么就按照七年級期末考試的平均分計算。
(2)起點差距:考核差距=班級均分-年級均分-起點差距;成績平均分的考核:如果低于或高于校平均分3分內(含3分)不加也不減,如果高于3分以上或低于3分以下則分別有1分加考績分4分或扣考績分4分(如接班時平均分與校平均分懸殊4分以上加上接班時的懸殊分考核);教兩個平行班如果懸殊1-3分(含3分)不扣分,如果懸殊分4分以上則有1分扣2分(如接班時兩個班懸殊4分以上減去接班時的懸殊分考核,兩班均高于平均分則不扣分);如跨頭教兩個班則各折1/2計算.常識科目原始考核入學平均分按照八年級期末考試語數外物各班的平均值計入。
例如:對三班四班的平均分考核。
第一步:算出考核分差距。三班本次考試平均分為84.76,和年級均分的差距84.79減去79.994約等于4.8??紤]到起點差距,將4.8減去1.1得到3.7,四舍五入最終得到考核差距為4分,高于3分以上,同理得到四班的考核差距為5分。
第二步:算出平行班差距。若只教一個班則不需要計算。三班四班為同一個老師所教,所以要考慮平行班差距為84.76減去83.15得到2,懸殊沒有到達4分,不加也不減。
第三步:算出跨班考核分。由第一步和第二步得出的數據,計算(4(三班考核分差距)-3)*4+(5(四班考核分差距)-3)*4=12,12除以2(教兩個平行班除以2,三個平行班除以3,以此類推)得6,因平行班平均分差距為2,無加減,所以,最終平均分模擬考核分為50(基礎分)加6得到56分。
2、優秀率模擬考核:由前面所算出的各班優秀入圍人數,對各學科各班優秀率考核。例如:
仍舊以三班、四班為例:
第一步:算出三班的考核分數。三班單科前160名總分在全校前240名的語文人數為9個,本次考試實際入圍人數為17,17減去9得到8,每多一人加4分,8乘以4得到32分。有時候老師中途接班就得按照當時接班的時候基數計算。例如五班的老師是初三剛接的班,那么他的基數就是此班在八年級期末考試時單科前160名總分在全校前240名的語文人數,即為5人,所以五班的變化人數是9(實際入圍人數)減去5(接班基礎)得到4人。
第二步:同理算出四班的考核分數為44.
第三步:跨班考核。32加上44除以2得到38分,38加上基礎分50得到88分。即老師的最終優秀率模擬考核分。
通過以上的數據,平均分模擬考核對老師的整體教學效果達到一定的評價,對各門功課的任課教師都有一定的促進作用;優秀率模擬考核充分了解班級有效學生,有的學生偏科很重的,通過此數據就知道哪些學生需要強化哪門功課。使各科任教師的教學有針對性,不放棄任何一個有潛力的學生。此兩項數據也是教師最終年終考核參考的重要依據,無形中讓老師認識到工作重點。
四、學生的追蹤分析應用
例如:前360名學生在各次檢測中的情況,對其分析;或某次考試進入全校前240名的學生,在以前各次檢測中的表現,關注其以后的表現,發現其潛力等等。
通過以上等等一系列的對成績數據分析,針對每項數據的結果,我校都有下一步舉措與方針。雖然實行了招生劃片的政策,在同等生源的情況下,我校的教學實績成績斐然。在中考之前,徐校長會根據數據分析的結果制定每個班級的進入重點高級中學的人數,這樣的預測相當準確。當然在數據處理過程中我們遵循數據運用的道德:1、保護個人隱私;2、教師若出現所知數據的泄漏將追究其責任。
數據存在不能為我們所用,那我們將會淪為數據的奴隸;運用得當我們將處于各行各業的巔峰。數據在各行各業所表現出來的價值和意義正被大眾所認識和運用,作為一個大數據時代下的教師,希望通過本文對我們的教育事業盡一些綿薄之力。
參考文獻:
關鍵詞:大數據;智能變電站;設備性能;可視化
目前智能變電站已提出全面支撐調控一體助力電網發展方式轉變,但是在大數據時代下,客戶的能源消耗情況無所遁形。傳統的變電站故障信息統計一般是通過打印保護裝置動作報告、查看故障錄波器錄波進行分析,過程繁瑣,時間較長。而今智能告警及故障信息綜合分析決策技術,已可以妥善處理故障事件順序記錄信號及保護裝置故障錄波等各種數據,可是很多企業對新一代智能變電站的建設工作沒有給予足夠的重視,例如投資總額和生命周期。鑒于此,提出依據運營設備的信息采集,提出對各信息模塊信息進行數據挖掘,結合專業綜合分析篩選定位將設備安全隱患多元化歸類,并將分析結果以簡潔明了的可視化界面綜合展示,進而使得變電站產品運營高質、高效、低風險。
1.智能變電站設備可視化整體應用方案如下圖所示:
[報文采集、記錄模塊] [報文監測、解析模塊] [高精度時鐘模塊] [故障錄波模塊] [故障波形存儲] [數據清理] [分析快] [報文存儲][數據集成] [數據變換] [數據歸類] [XML文檔] [SVG圖像] [可視化圖像展示] [XSP
技術]
2.智能變電站設備運營模塊的數據信息采集結構圖如下所示:
[報文采集、記錄模塊] [報文監測、解析模塊] [高精度時鐘模塊] [故障錄波模塊] [故障波形存儲] [數據清理] [分析快] [報文存儲][數據集成] [數據變換] [數據歸類]
設備運營模塊的數據信息采集結構圖
報文采集、記錄模塊主要負責報文信息的接收、讀取并實時性記錄當前時標,同時查看從站上發出的遙測、遙信、電量等數據,并記錄遙測、遙信報警信號,對報文錯誤、重復等進行實時預警。
報文監測、解析模塊主要負責記錄各種信息的交互及其過程,然后能對各個模塊的信息進行監測和對狀態進行評估,根據監測的信息確定報文有無出現異常現象,解析報文傳送的正確性、規約一致性。
故障錄波模塊主要負責系統發生故障時自動地、準確地記錄故障前、后過程的各種電氣量的變化情況,通過對這些電氣量的分析、比較、對分析處理事故、判斷保護是否正確,通過對故障錄波圖的分析,找出事故原因,分析繼電保護裝置的動作作為,對故障性質及概率進行科學的統計分析,統計分析系統振蕩時的有關參數,為保障變電站正常安全運行提供了一定的預防作用。
3.數據采集信息轉化成圖像架構圖如下所示:
[XML文檔][XSP技術][SVG圖像][可視化圖
像展示]
數據采集信息轉化成圖像架構圖
XML語言即可擴展標記語言。相對于其他幾類語言來說,它的靈活性、高效性、可擴展性更為明顯。XML可以提供統一的方法來描述和交換獨立于應用程序或供應商的結構化數據,不僅能夠描述各種應用軟件的數據,還可用于在許多不同平臺和應用程序之間交換數據,由于變電站系統內數據較多,一般都是以數據庫作為整體進行讀取,鑒于此,需將數據通過變換、清理、集成、歸類等數據挖掘技術進行解析并利用工具生成XML格式的數據庫。
XSP技術即可擴展服務器頁面。使用這項技術解決設備性能可視化的好處在于它是基于XML語言二開發的一種開放標準的矢量圖形語言,擴展性強,分辨率高,能夠輕松地描繪出復雜的圖像,同時尺寸小,可壓縮性更強,可實現靜態內容、動態邏輯、表現形式的分離。
SVG圖像即可縮放的矢量圖形。SVG提供了三種類型的圖形對象:矢量圖形、圖像、文本。由于圖形對象可進行分組、添加樣式、變換、組合等操作,因此,較易更改或復用,不同平臺之間都可以使用。
由于XSP和SVG圖像都是基于XML文檔格式的,所以二者可以有機地結合起來,將XML文檔數據轉換為SVG圖像,從而直觀地展示了設備運營情況。
本文針對智能變電站設備運營提出的可視化解決方案,對了解、掌握設備的正常運行和故障狀態下的快速性、靈活性、安全性有重要意義,有助于提高變電站整體的安全運行水平和生命周期,同時解決方案易于實施,可廣泛推廣,是企業未來精益發展的一個趨勢。
參考文獻:
[1]張榮祖,朱揚勇.一個可視化數據挖掘系統中的數據預處理技術[C].第二十屆全國數據庫學術會議論文集:技術報告篇, 2003.