首頁 > 文章中心 > 大數據分析論文

      大數據分析論文

      前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇大數據分析論文范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。

      大數據分析論文

      大數據分析論文范文第1篇

      大數據背景下的機器算法

      專業

      計算機科學與技術

      學生姓名

      楊宇瀟

      學號

      181719251864

      一、 選題的背景、研究現狀與意義

      為什么大數據分析很重要?大數據分析可幫助組織利用其數據并使用它來識別新的機會。反過來,這將導致更明智的業務移動,更有效的運營,更高的利潤和更快樂的客戶。

      在許多早期的互聯網和技術公司的支持下,大數據在2000年代初的數據熱潮期間出現。有史以來第一次,軟件和硬件功能是消費者產生的大量非結構化信息。搜索引擎,移動設備和工業機械等新技術可提供公司可以處理并持續增長的數據。隨著可以收集的天文數據數量的增長,很明顯,傳統數據技術(例如數據倉庫和關系數據庫)不適合與大量非結構化數據一起使用。 Apache軟件基金會啟動了第一個大數據創新項目。最重要的貢獻來自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復雜數據準備和ETL的旗艦,可以為許多數據存儲或分析環境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發)通常用于大容量計算任務。這些任務通常是批處理ETL和ML工作負載,但與Apache Kafka等技術結合使用。

      隨著數據呈指數級增長,企業必須不斷擴展其基礎架構以最大化其數據的經濟價值。在大數據的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產系統非常昂貴且效率低下。要使用大數據,您還需要適當的人員和軟件技能,以及用于處理數據和查詢速度的硬件。協調所有內容同時運行是一項艱巨的任務,許多大數據項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規模的公司都可以通過單擊幾下立即訪問復雜的基礎架構和技術。在這里,云提供了強大的基礎架構,使企業能夠勝過現有系統。

      二、 擬研究的主要內容(提綱)和預期目標

      隨著行業中數據量的爆炸性增長,大數據的概念越來越受到關注。 由于大數據的大,復雜和快速變化的性質,許多用于小數據的傳統機器學習算法不再適用于大數據環境中的應用程序問題。 因此,在大數據環境下研究機器學習算法已成為學術界和業界的普遍關注。 本文主要討論和總結用于處理大數據的機器學習算法的研究現狀。 另外,由于并行處理是處理大數據的主要方法,因此我們介紹了一些并行算法,介紹了大數據環境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數據量大的情況下算法和模型的關系,同時也會探討大部分細分行業數據量不大不小的情況下算法的關系。

      三、 擬采用的研究方法(思路、技術路線、可行性分析論證等)

       1.視覺分析。大數據分析用戶包括大數據分析專業人士和一般用戶,但是大數據分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數據的特征,并像閱讀照片的讀者一樣容易接受。 2.數據挖掘算法。大數據分析的理論中心是數據挖掘算法。不同的數據挖掘算法依賴于不同的數據類型和格式來更科學地表征數據本身。由于它們被全世界的統計學家所公認,因此各種統計方法(稱為真值)可以深入到數據中并挖掘公認的值。另一方面是這些數據挖掘算法可以更快地處理大數據。如果該算法需要花費幾年時間才能得出結論,那么大數據的價值是未知的。 3.預測分析。大數據分析的最后一個應用領域是預測分析,發現大數據功能,科學地建立模型以及通過模型吸收新數據以預測未來數據。 4.語義引擎。非結構化數據的多樣化為數據分析提出了新的挑戰。您需要一套工具來分析和調整數據。語義引擎必須設計有足夠的人工智能,以主動從數據中提取信息。 5.數據質量和數據管理。大數據分析是數據質量和數據管理的組成部分。高質量的數據和有效的數據管理確保了分析結果在學術研究和商業應用中的可靠性和價值。大數據分析的基礎是前五個方面。當然,如果您更深入地研究大數據分析,則還有更多特征,更深入,更專業的大數據分析方法。

      四、 論文(設計)的工作進度安排

      2020.03.18-2020.03.20 明確論文內容,進行相關論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。

      2020.04.28-2020.04.30 :設計實驗。

      2020.05.01-2020.05.07 :開展實驗。

      2020.05.08-2020.05.15 :準備中期檢查。

      2020.05.16-2020.05.23:根據中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。

      2020.05.29-2020.06.26 :論文修改完善。

       

      五、 參考文獻(不少于5篇)

      1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數據分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應用,2012.被引量:273.

      2 . 喻國明. 大數據分析下的中國社會輿情:總體態勢與結構性特征——基于百度熱搜詞(2009—2 012)的輿情模型構建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數據分析與情報分析關系辨析.中國圖書館學報,2014.被引量:16.

      4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數據分析的分布式molap技術 .軟件學報,2014.被引量:6.

      5 . 王德文,孫志偉.電力用戶側大數據分析與并行負荷預測 .中國電機工程學報,2015.被引量:19.

      6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數據分析的輸變電設備狀態數據異常檢測方法 .中國電機工程學報,2015.被引量:8.

      7 . 喻國明. 呼喚“社會最大公約數”:2012年社會輿情運行態勢研究——基于百度熱搜詞的大 數據分析.編輯之友,2013.被引量:4.

      六、指導教師意見

       

       

       

       

       

       

       

       

      簽字:                  年     月    日

      七、學院院長意見及簽字

       

       

       

       

       

       

       

      大數據分析論文范文第2篇

      [關鍵詞]Hadoop;大數據;分布式計算;HDFS;MapReduce

      doi:10.3969/j.issn.1673 - 0194.2015.20.032

      [中圖分類號]TP308;TP311.13 [文獻標識碼]A [文章編號]1673-0194(2015)20-0041-01

      1 大數據

      大數據需要新處理模式才具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據的核心是預測,它把數學算法應用到海量數據上來預測事件發生的可能性。大數據同時意味著思維的變革:①小數據分析的是隨機樣本,而大數據分析的是全體數據,全面展示樣本無法表達的細節信息;②小數據分析追求精確性,而大數據分析具有混雜性,這意味著大數據的簡單算法比采樣數據的復雜算法更有效;③小數據分析關注因果關系,而大數據分析更關注相關關系,通過分析事物之間的關聯性,來預測事件的發展趨勢。

      2 Hadoop大數據平臺

      Hadoop是Apache的開源分布式計算平臺。受Google大數據論文的啟發,Doug Cutting用JAVA實現了以MapReduce和HDFS為核心的Hadoop,并將源代碼完全貢獻出來。Hadoop充分發揮集群的計算和存儲能力,快速完成海量數據的處理。Hadoop采用分布式存儲來提高讀寫速度和擴大存儲容量;采用MapReduce整合分布式文件系統上的數據,實現數據高速處理;采用存儲冗余數據來保證數據的安全性。

      2.1 HDFS

      HDFS是基于流模式訪問和處理超大文件的需求而開發的,它可以運行于廉價的商用服務器上,HDFS的主要特點有以下3個方面。①處理超大文件:在實際應用中,HDFS已經能夠用來存儲管理PB級的數據了。②流式訪問數據:請求讀取整個數據集要比讀取一條記錄更加高效。③運行于廉價的商用機器集群上:HDFS對硬件要求較低,無需昂貴的高可用性機器。

      HDFS體系結構中有兩類節點:NameNode和DataNode,NameNode負責管理集群中的執行調度,DataNode是具體任務的執行節點。當執行任務時,客戶端訪問NameNode獲取文件數據信息,與DataNode進行交互以訪問整個文件系統。HDFS向用戶提供類似POSIX的文件接口,開發者在編程時無需考慮NameNode和DataNode的實現細節。

      2.2 MapReduce

      MapReduce是Google公司的核心計算模型。在Hadoop中,用于執行MapReduce任務的機器有兩種角色:JobTracker和TaskTracker,一個Hadoop集群中只有一個JobTracker,用于任務管理和調度。一般來說,為了減輕網絡傳輸的壓力,數據存儲在哪個節點上,就由哪個節點進行這部分數據的計算。JobTracker監控任務運行情況,當一個TaskTracker出現故障時,JobTracker會將其承擔的任務轉交到另一個空閑的TaskTracker重新運行。TaskTracker用于執行具體的工作。

      3 大數據在智能電網中的應用構想

      通過Hadoop大數據平臺,技術人員可實時觀察到全網范圍內的電能流動狀態、電能負載熱區、設備故障高發區和客戶集中區等數據,實現更加智能化的電網。具體包括以下4個方面。

      3.1 電網數據可視化

      在未來智能電網中,通過大數據分析融合調度、配電、輸電、發電和用電客戶數據,實現實時和非實時數據的高度信息化集成,通過實時可視化運算分析,全面展示完整和精細的電網運行狀態圖,為管理層提供輔助決策支持和依據。

      3.2 電網負載趨勢預測

      在未來智能電網中,通過大數據分析電網負載的歷史數據和實時數據,展示全網實時負載狀態,預測電網負載變化趨勢,通過現代化管理技術的綜合應用,提高設備的使用效率,降低電能損耗,使電網運行更加經濟和高效。

      3.3 設備故障趨勢預測

      在未來智能電網中,通過大數據分析電網中部分故障設備的故障類型、歷史狀態和運行參數之間的相關性,預測電網故障發生的規律,評估電網運行風險,開展實時預警,提前做好設備巡檢和消缺工作,為電網安全穩定運行保駕護航。

      3.4 客戶電力需求預測

      在未來智能電網中,通過大數據分析電網客戶的用電數據,預測區域用電和大客戶用電需求變化趨勢,針對客戶需求提前制訂高質量的服務計劃,提升社會滿意度。

      4 結 語

      Hadoop充分發揮集群的計算和存儲能力,完成海量數據的實時處理。在未來的智能電網中,大數據分析可以應用到電網運行全景可視化、電網負載預測、設備故障趨勢預測和客戶需求趨勢預測等需求,充分挖掘海量數據的價值,為智能電網提供技術參考。

      大數據分析論文范文第3篇

      (湖南城市學院圖書館,湖南 益陽413000)

      【摘 要】在云計算、物聯網等技術的推動下,世界已經進入了一個“大數據”時代。本文旨在討論大數據時代下,圖書館與大數據相關的研究內容、發展存在的問題以及總體發展趨勢。在大數據時代下,圖書館應該進行服務模式創新與重構、服務內容創新與重構,從而解決發展瓶頸。

      關鍵詞 大數據;圖書館;云計算

      0 引言

      在云計算、物聯網等技術的推動下,世界已經進入了一個“大數據”時代。如何有效地利用大數據成為政府公共管理和企業界共同關注的問題,但這些數據集的規模往往超出數據處理者的能力。圖書館主要工作為實踐,研究和教育。以最大限度地利用人類的知識,促進專業的交流為責任。圖書館職業無法離開專業知識和信息,影響人類社會的可持續發展。數據是圖書館藏書的重要組成部分。數據作為原始類的產品,可以加工、整理、分析,最后提煉成人與人之間的生產和生活中發揮更大作用的信息和知識。因此,大數據主題是圖書館行業內應當研究的問題,展示了圖書館界在信息社會求生存,謀發展能力的提升。本文旨在討論大數據時代下,圖書館與大數據相關的研究內容、發展存在的問題以及總體發展趨勢。

      1 圖書館學研究教育與大數據現狀

      圖書館已有的研究中有文獻計量學等和大數據有關。研究人員為了促進信息科學與社會科學的進步,通過大型網絡規模的收集獲得數據和分析數據得出相關結論來實現目標。由于大數據技術的應用,傳統的文獻計量學的研究從過去只有簡單的描述性研究擴展到評估和預測的研究。圖書館學研究人員參與了很多相關的項目,例如,新西蘭的奧塔哥大學的圖書館承擔了研究數據管理項目的任務,在麻省理工大學設立項目研究圖書館數據存儲、需求分析數據的管理,和傳播數據,并完成數據收集保存標準的制定工作。烏里韋和麥克唐納在認為數據監測工作將從傳統的信息技術受益。Huwe建議采取政治手段,以促進圖書館和數據中心的發展,他認為高等教育機構應該認可圖書館對學術研究的支持。通過分析2008非常流行的“數字化監控中心的生命周期模型”,希金斯提出,圖書館的“數據保留計劃”的生命周期可以被納入其數字機構庫文件管理實體。此外,美國學者對館員在大數據環境中的作用和專業知識進行了調查,他們一致認為圖書館可以在大數據時代承擔數據管理職責。謝菲爾德大學還安排了基礎的信息學專業課程。 2011年6月倫敦國際監護教育論壇投入使用的,也給數字監控領域的發展提供了一個機會。

      國內目前的相關研究課題還處于剛起步的狀態,CNKI與該主題相關的文章也只有寥寥幾篇。相比之下,國內對“數據監護權”的關注度更高這,主要是針對大學圖書館在這個專業領域展開更多的研究。這方面的論文在2012年之后有一個井噴式的增長,但總體來說,國內相關文獻還相對較少,研究項目也幾乎沒有。

      2 圖書館的大數據特征

      在數字化時代,數據處理更容易、更快。圖書館的數據資源種類多、數量大、形式多樣。截至2008年底,CALS的文檔數據量達到180T,2010年底的國家圖書館數字資源總量達到480 T。目前,國家博物館進行維護之后,數字圖書館的非結構化數據的存儲容量將非常大。總數字資源工程也達到108TB。由此看來,圖書館的數字資源總量已聚集為一個大的數據集。再次,圖書館自動化服務水平已發展到了一個新的階段。此外,用戶服務信息每日激增,用戶對服務的要求越來越高,圖書館要根據用戶的服務信息,做出相應的調整。因此,根據各自限定的環境和條件,從大量的數據分析中挖掘出用戶當前和未來的需求都非常迫切。

      3 大數據背景下圖書館發展趨勢

      3.1 服務模式創新與重構

      目前,隨著科學技術的不斷發展,傳統的紙質圖書館向電子、數字圖書館的轉變,因此圖書館服務的性質已經發生了很大的變化。傳統圖書館是點對點的服務,而目前數字圖書館已經成為綜合,服務的風格和方法等方面都發生了很大的變化。在服務理念上,數字圖書館是基于數據服務的基礎上,在大數據的基礎上,從數據采集,智能服務,提供綜合服務,創新了服務模式。在大數據時代,數據資源是豐富的,每個圖書館可以利用網絡來收集大量的數據資源,基于資源共享提供各種數據管理的資源之間的無縫連接。

      3.2 服務內容創新與重構

      在大數據時代背景下,競爭已經不再是一個簡單的數據資源所有權的競爭,而是在數據的結構以及類型上、數據的開發以及利用上的競爭。從圖書館的角度來看,它是在大數據背景下,為了避免自己被邊緣化,就必須分析數據,來進行相關的數據分析服務。分析數據庫業務有以下幾個方面:首先,圖書館需要建立自己的大數據分析,數據分析通常在現有的數據,如讀者愛好的書籍等。另外是對讀者的分析,這類似企業和其他客戶群體參考提供的數據分析、競爭情報分析,但也有很大的區別,不同之處在于數據分析對象、用于數據分析和數據分析的目的等。對于這樣的數據,可能不會被圖書館所擁有,所以它必然成為在這個行業發展的瓶頸限制,我們應該想辦法解決這些問題。

      參考文獻

      [1]劉瓊.大數據環境下圖書館面臨的影響與挑戰[J].理論觀察,2013(8):112-113.

      [2]孫琳.大數據時代圖書館服務體系創新研究[J].理論觀察,2013(4):99-100.

      [3]李立.大數據在數字圖書館中的應用分析[J].高校實驗室工作研究,2014(3): 35-37.

      大數據分析論文范文第4篇

      關鍵詞:大數據時代;地方應用型高校;軟件工程專業;課程體系

      0引言

      大數據作為繼云計算、物聯網之后IT行業又一顛覆性的技術,備受人們的關注,大數據技術正從概念轉向實際的應用,涌現出越來越多的大數據技術應用成功案例,大數據的價值也在迅速增長。2015年,中國大數據市場規模達到115.9億元人民幣,增速達38%,預計2016~2018年中國大數據市場規模將維持40%左右的高速增長[1]。大數據時代的到來,使得軟件行業對人才的應用能力和綜合素質提出了更高的要求。咸陽師范學院作為咸陽市地方應用型高校以服務咸陽地區經濟社會發展為己任,肩負著培養滿足咸陽地方社會需求軟件人才的使命,需要把培養面向大數據時代的軟件工程專業人才作為戰略任務來抓。而課程體系的建設是軟件工程專業人才培養體系最重要的一個方面。本文通過分析我院傳統軟件工程專業課程體系,以及大數據時代下企業對軟件工程專業人才要求,找出大數據時代下軟件工程專業應用型人才中課程體系存在的問題,探索出我院面向大數據環境的應用型軟件工程人才中課程體系的建設。

      1我院軟件工程專業傳統的課程體系

      自我院計算機系成立以來,軟件工程專業一直是我院重點建設專業。2013年,“‘3+1’校企合作軟件人才培養模式創新實驗區”被確定為省級人才培養模式創新實驗區。一直以來,該專業以培養“厚基礎、強能力、高素質”應用型人才的為培養目標,以企業、市場需求為導向,重視實踐、技能和應用能力的培養,與尚觀科技、中軟國際、華清遠見、藍鷗科技等西安多家企業聯合,采取3+1嵌入式校企聯合教育培養模式,將課程教學、工程實踐、行業理念進行無縫結合。課程體系是一個專業所設置的課程相互間的分工與配合[2],主要反映在基礎課與專業課,理論課與實踐課,必修課與選修課之間的比例關系上[3]。地方應用型本科院校的課程體系設計既要體現基礎知識的傳授,也要體現實踐能力的培養,同時還要考慮學生的職業能力規劃發展問題。我院2013-2015級軟件工程專業課程體系結構圖如圖1所示。圖12013-2015級軟件工程專業課程體系結構圖從圖1可以看出通識教育必修課程的教學階段共3個半學年,主要涉及思想政治基礎知識、體育、人文歷史、外語應用能力等;相關學科基礎類課程主要包括高數、線性代數、數字邏輯等數學類課程;本學科基礎類課程主要涉及程序設計語言、計算機網絡、操作系統、數據結構、計算機組成原理等;專業技能教學階段強調對學生工程性、實用性、技術性和復合型能力的培養,主要安排專業必修課程和專業選修課程。專業必修課程包括面向對象程序設計、軟件工程、數據庫原理與應用、軟件設計與體系結構、算法分析與設計等,專業選修課程包括Web軟件開發、Linux系統應用程序開發、移動終端開發等。根據教育部專業教學指導委員會軟件工程行業規范[4],本著“輕理論,重實踐”的原則,我院在一定程度上壓縮理論課課時,增加實踐課課時,優化專業課程體系結構。我院2015級軟件工程專業的人才培養計劃中,各類課程學分設置與所占比例。

      2大數據時代企業對軟件工程專業人才的要求

      大數據時代所需要的人才是一定擁有數據處理、分析技術的,也就是對數據有敏銳的直覺和本質的認知、能夠運用統計分析、機器學習、分布式處理等技術,從海量、復雜的數據中挖掘出有用的信息,以清晰易懂的形式傳達給決策者,并創造出豐富有價值的專業人士[5]。在大數據時代下,對軟件專業人才培養,應具備以下四個方面的技能。(1)具有厚實的數學、統計和計算機學科的相關知識,能夠根據具體案例大數據分析任務的要求,運用大數據處理、分析平臺,收集整理海量數據并加以分析,挖掘出有價值的信息。(2)掌握大數據處理技術及可視化工具,能根據具體任務的需求,對數據進行選擇、轉換、加工等處理操作,采用有效方法和模型對數據進行分析并形成數據分析報告,用易于用戶理解的方式,提供科學的決策依據。(3)熟悉行業知識、專門業務及流程,將大數據技術和企業文化相結合,充分利用大數據分析處理的結果,挖掘出海量數據中隱藏的價值并應用于企業市場領域。(4)團隊合作精神,大量數據的收集整理、存儲、分析和處理,一個人是很難完成的,需要一個由團隊成員合理分工、共同協作完成。

      3大數據時代我院軟件工程專業傳統的課程體系存在的問題

      地方高校一直以來受傳統的“學術型”、“研究型”人才培養模式的影響較大,形成了適合于“精英教育”為培養研究型人才的課程體系,無法適應以工程實踐能力、創新創業意識、新技術新方向為目標的人才培養,課程體系中理論教學占主導地位,實踐教學往往處于次要地位[6]。而目前處于大數據時代,信息技術的不斷創新、企業需求不斷變化、綜合型人才需求巨大等因素的影響下,傳統的培養研究型人才的課程體系,無法適應大數據時代以工程實踐能力、創新創業意識、新技術新方向為目標的人才培養。通過了解大數據環境企業對軟件工程人才的要求,分析我院2013-2015級軟件工程專業人才培養課程體系結構,發現存在以下問題:(1)缺少大數據技術方面的課程。傳統的課程體系中主要包括軟件工程專業一些傳統的課程,如數據結構、軟件工程、軟件體系結構等,而且課程內容較陳舊,所開設的一些應用軟件的學習不能緊密貼合行業和技術發展,軟件工程專業教育必須適應互聯網時展和大數據技術的需求,關注企業發展及大數據系統的建設問題,以滿足企業對應用型人才的需要。(2)實踐類課程學時所占比例較少。我院2015級軟件工程專業實踐類課程占總學時的10.8%,是因為傳統的課程體系注重知識傳授,而忽略了學生解決問題、動手能力的提高。地方高校在人才培養中重視理論內容、計算機編程能力,而忽略學生探索能力的培養,這些都不利于學生對新技術、新方向發展的把握,學生難以應對各種層出不窮、錯綜復雜的海量數據,很難挖掘出隱藏的數據價值并有效利用。(3)課程體系結構設置方面,一是存在通識教育類課程教學階段持續時間長,一直到第7個學期,這就影響了后面專業類課程的學習;二是專業基礎類分為專業必修和選修,沒有從課程教學階段不同來劃分,不能體現課程先后的銜接關系。

      4大數據時代我院軟件工程專業課程體系建設改革

      在大數據時代,軟件工程專業教育必須適應企業發展和大數據行業的需求。教學內容的設置應與行業需求接軌,根據我院學生特點調整2016級軟件工程專業課程體系。具體做了以下幾點的調整。(1)課程體系結構更合理。一是通識教育類課程的調整。一方面將教學階段全部調整到第1、2學年完成,這樣在第3學年學生就可以重點學習專業類技能課程;另一方面此部分增加了大學生心理健康和創新創業教育課程,主要可以加強學生團隊合作精神的培養。二是專業類課程結構的調整。將專業類課程分為專業(學科)基礎課程和專業技能課程兩大類,專業(學科)基礎課程主要包括數學類課程、計算機導論、程序設計語言、數據結構、操作系統、軟件工程、運籌學、數據分析與處理。專業技能課程又分為專業核心課程和專業方向課,專業核心課程包括面向對象程序語言類、軟件設計模式、算法分析與設計、軟件測試等軟件工程專業要求的核心課程,而專業方向課分為3個方向:大數據分析、Web技術應用、移動終端開發,鼓勵學生在學好專業基礎和核心課程的同時,發現自己專業類的興趣,選擇一個自己感興趣的方向集中學習,大數據分析方向是重點向學生推薦。在教學階段安排上,一般專業(學科)基礎課程要優先于專業技能課程,這樣可以讓學生在掌握了學科、專業基礎上,充分了解軟件工程專業技能的訓練。(2)增加了大數據技術方面的課程。在新調整的課程體系中,專業(學科)基礎課程和專業技能課程都增加了大數據相關內容。基礎課設置增添運籌學、數據分析與處理等,使學生了解大數據行業基礎知識,激發學生對大數據行業發展及大數據應用前景的興趣;專業技能課設置了數據倉庫與數據挖掘、大數據統計分析與應用、數據挖掘算法與應用等前沿科學技術相關課程以滿足大數據系統建設與應用的需要,培養更多企業需要的大數據管理分析軟件專業人才。院級選修課鼓勵研究大數據方向的教師積極申請大數據案例分析、大數據安全與隱私保護、HadoopMap/Reduce技術原理與應用等實用性強的課程,以補充對大數據方向特別感興趣學生的學習內容。(3)增加實踐類課程所占比例。相比較2015級,以培養地方應用型人才為總目標,實踐類課程課時由19課時增加到28課時,所占總課時比例提高了約50%。實踐類課程包括校內(課程設計和實訓)和校外(見習、實習、實訓、畢業論文),種類多樣化,使得學生多方面提升自己解決問題和動手操作能力。針對校內實驗我院教師結合大數據教學實驗平臺,根據課程內容設計實驗項目,從初級到高級,安排合理的階梯式學習,實驗內容持續更新,加入最新、主流的分析建模工具和挖掘算法,學生在免費、開放的平臺環境下進行大數據構建、存儲、分析統計等實驗內容,使學生熟練掌握Ha-doop、HBase、Spark等關鍵技術,提高大數據理論分析及技術應用的能力。做好校內實踐的同時,校外實踐更是尤為重要,首先在實習、實訓企業的選擇上,盡量選擇“口碑好、技術強、理念先進”的單位,目前我院已與鄰近城市西安與尚觀科技、中軟國際、華清遠見、藍鷗科技等西安多家企業聯合,第四學年分批組織學生到合作企業的實訓基地參加真實的實訓項目,體驗IT企業真實的工作環境、工作流程和企業文化,了解互聯網大數據、零售大數據、金融大數據等領域知識,學習海量數據搜集、分析、存儲技術,引導學生按照項目的需求、總體設計、詳細設計、編碼、測試等流程完成實踐內容,規范化文檔和代碼的編寫,培養學生的行業、職業素養。

      5應用效果

      目前應用此方案有2016和2017級兩級學生,雖然這兩級學生都還沒有就業,但在創新應用能力方面都較2015級之前學生有顯著提升。近兩年有10余組學生團隊獲得國家級、省級、校級“大學生科研訓練項目”立項資助,有8名同學獲得“藍橋杯”程序設計大賽國家級二等獎、三等獎,省級一等獎2項,二等獎、三等獎多項。2016年有兩隊學生獲得陜西省高校“互聯網+”創新創業大賽三等獎,一隊學生獲得咸陽市青年創業大賽二等獎。數十名學生在核心期刊上公開發表學術論文。從目前取得的成績來看,課程體系結構的調整,使得學生不僅獲得扎實的理論知識,而且具備了過硬的實踐和創新能力,我院軟件工程專業畢業生一定會深受用人單位喜歡。

      6總結

      針對大數據時代下地方本科院校軟件專業人才培養中課程體系存在的一些問題,筆者分析了大數據環境對軟件工程專業人才的要求,以地方本科院校咸陽師范學院為例,改革調整了課程體系,主要在在理論教學和實踐教學中增加大數據相關理論及技術內容,通過近年來的探索與實踐,此課程體系結構有效提高了學生的創新應用能力,為大數據時代企業發展培養了高水平、高素質的大數據分析人才,新的課程體系適應了大數據環境下軟件工程人才的培養。

      參考文獻

      [1]孫琳.大數據應用的創新路徑[N].人民政協報,2016-05-17.

      [2]潘正高.地方應用型高校軟件工程專業課程體系的研究[J].西昌學院學報,2017,31(3):94-97.

      [3]潘怡.應用型本科院校軟件工程專業課程體系設置探討[J].長沙大學學報,2008,22(5):98-100.

      [4]教育部專業教學指導委員會.高等學校軟件工程專業規范[M].北京:高等教育出版社,2011.

      大數據分析論文范文第5篇

      用戶如何從這龐大的數據庫中提取對自己有用的信息呢?這就需要大數據分析技術和工具,而傳統的商業智能(BI)工具已經抵擋不住企業如此龐大的數據信息。提到大數據,不得不說的是與大數據相關的技術名詞:Hadoop、MapReduce、HBase、NoSQL等。業界的眾多廠商也都開始從技術入手,打造各自的大數據解決方案。一時間,Hadoop紅遍了全球,就像當年的Linux開源軟件系統一樣,成為了研究和設計大數據解決方案的主流平臺。

      華麗的變形

      Hadoop的發展基本上經歷了這樣一個過程:從一個開源的Apache基金會項目,隨著越來越多的用戶的加入,不斷地被使用、貢獻和完善,逐漸形成了一個強大的生態系統。

      隨著云計算和大數據的發展,如今Hadoop已經是一個能夠讓用戶輕松駕馭和使用的分布式計算平臺。用戶可以在不了解分布式底層細節的情況下,輕松地在Hadoop上開發和運行處理海量數據的應用程序,并能充分利用集群的威力實現高速運算和存儲。Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有著高容錯性的特點,并且設計用來部署在價格低廉的硬件上,而且它提供高傳輸率來訪問應用程序的數據,適合那些有著超大數據集的應用程序。HDFS放寬了POSIX的要求,這樣可以用流的形式訪問文件系統中的數據。

      Hadoop最受歡迎的是在Internet上對搜索關鍵字進行內容分類的工具,但它也可以解決許多要求極大伸縮性的問題。例如,如果您要grep一個100TB的巨型文件,會出現什么情況?在傳統的系統上,這將需要很長的時間。但是Hadoop在設計時就考慮到這些問題,采用并行執行機制,因此能大大提高效率。

      如今,基于Hadoop的應用已經遍地開花:Yahoo通過集群運行Hadoop,以支持廣告系統和Web搜索的研究;Facebook借助集群運行Hadoop,以支持其數據分析和機器學習;百度則使用Hadoop進行搜索日志的分析和網頁數據的挖掘工作;淘寶的Hadoop系統用于存儲并處理電子商務交易的相關數據。

      九年的長跑,Hadoop已從初出茅廬的小象華麗變形,成為了行業巨人,但還需戒驕戒躁、不斷完善。

      性能大提升

      Hadoop還是一個能夠對大量數據進行分布式處理的軟件框架。Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。

      Hadoop是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。

      Hadoop是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop可以將數千個節點投入計算,非常具有性能潛力。但并非所有的工作都可以進行并行處理,如用戶交互進行的數據分析。如果你設計的應用沒有專門為 Hadoop集群進行優化,那么性能并不理想,因為每個Map/Reduce任務都要等待之前的工作完成。

      英特爾針對大數據的開放架構核心產品線,推出了英特爾Hadoop分發版,讓用戶可以實現“軟硬協同,體驗至上”的創新效果。例如,利用英特爾至強處理器平臺對網絡和I/O 技術所做的優化,與英特爾Hadoop分發版進行強力組合,以往分析1TB的數據需要4個多小時才能完全處理完,現在僅需要短短的7分鐘即可完成,極大地提升了大數據分析的速度。

      Hadoop還是可伸縮的,能夠處理PB級數據。由于批量處理功能,Hadoop最好部署在這些場合:索引編制、模式識別、推薦引擎建立和情緒分析。在所有這些場合下,數據大量生成,存儲在Hadoop中,然后最終使用MapReduce函數來進行查詢。但是這并不意味著,Hadoop會取代數據中心里面目前的組件。恰恰相反,Hadoop會集成到現有的IT基礎設施里面,以便充分利用進入到該企業的海量數據。

      曾聽過這樣一則案例:Hadoop集成到一家企業網站后,情況較之先前大有改觀:大大節省了時間和精力。來自Web服務器的日志數據不用經歷ETL操作,而是直接被完整地發送到了Hadoop里面的HDFS。然后,對日志數據執行同樣的清理過程,現在只使用MapReduce任務,一旦數據清理完畢,隨后被發送到數據倉庫。這個操作要迅速得多,這歸因于省去了ETL這一步,加上MapReduce操作速度快。而且,所有數據仍然保存在Hadoop里面,網站操作人員后續所需數據都可以查詢到。

      開源的典范

      Hadoop依賴于社區服務器,任何人都可以自由的下載、安裝并運行。由于它是一個開源項目,所以沒有軟件成本,這使得它成為一種非常吸引人的解決方案。Hadoop帶有用Java語言編寫的框架,因此運行在Linux生產平臺上是非常理想的。Hadoop上的應用程序也可以使用其他語言編寫,比如C++。

      Hadoop稱得上開源創新領域的杰出典范。思科的James Urquhart曾經這樣說過:“Hadoop可以說是不涉及任何現有專利的開源項目在企業軟件方面所取得的首個里程碑式成功”。盡管里程碑不只這么一個,但能夠以這樣的規模將成功果實迅速擴展的例子還真不多見。

      雖然大量的行業用戶開始學習Hadoop的技術架構,但在真實的生產環境中,依然顯得相當謹慎,很大一部分也是因為開源。Google雖然公開了MapReduce論文,但底層的GFS、BigTable等技術都不是開源的,因為這是互聯網的核心競爭力。很多企業的確想用這個技術,但是技術門檻比較高,前期投入非常之大。一旦進入維護和開發階段,Hadoop的真實成本就會凸顯出來。

      群體的智慧

      Hadoop作為海量數據分析的最佳解決方案,已經受到眾多IT廠商的關注,并由此而錘煉出風格迥異的Hadoop發行版以及支持Hadoop的產品。

      例如,IBM在Hadoop系統領域的代表產品InfoSphere BigInsights,它是基于開源Apache Hadoop框架實現,增加了包括管理能力、工作流、安全管理等能力,并融入了IBM研究實驗室的數據分析、機器學習技術以及文本數據分析挖掘;IBM在流計算領域的代表產品是InfoSphere Streams,是目前業界獨有的流數據處理技術。Streams能夠在對諸如氣象信息、通訊信息、金融交易數據的管理中動態捕捉信息、進行實時分析,能夠對靜態數據的處理提供有效補充;在數據倉庫方面是InfoSphere Warehouse和etezza。Netezza克服了傳統數據倉庫在面臨大數據挑戰時的瓶頸,可以將大量數據整合到統一的平臺上,計算能力高達TB級。

      亚洲日本在线观看网址| 亚洲色大成网站WWW国产| 久久精品国产亚洲AV忘忧草18| 久久亚洲AV成人出白浆无码国产 | 亚洲aⅴ天堂av天堂无码麻豆| 亚洲熟妇自偷自拍另欧美| 91麻豆国产自产在线观看亚洲| 国产精品亚洲色婷婷99久久精品| 久久亚洲精品成人综合| 在线亚洲v日韩v| 亚洲乱码无限2021芒果| 亚洲国产高清视频在线观看| 中文字幕亚洲激情| 亚洲综合色婷婷七月丁香| 国产国拍亚洲精品福利| 伊人久久亚洲综合| 国产亚洲精品无码专区| 亚洲最大AV网站在线观看| 亚洲精品无码永久在线观看你懂的 | 亚洲国产精品成人综合色在线婷婷| 国产成人综合亚洲AV第一页 | 亚洲沟沟美女亚洲沟沟| 亚洲精品456在线播放| 亚洲人成影院在线高清| 亚洲精品国产国语| 亚洲AV无码男人的天堂| www.亚洲精品| 337p日本欧洲亚洲大胆裸体艺术 | 中文亚洲AV片不卡在线观看| 亚洲精品高清国产一线久久| 亚洲AV日韩AV天堂一区二区三区| 亚洲精品天堂成人片?V在线播放| 亚洲男人天堂2022| 亚洲精品中文字幕麻豆| 亚洲videosbestsex日本| 亚洲AV乱码久久精品蜜桃 | 全亚洲最新黄色特级网站 | 亚洲专区中文字幕| 亚洲日韩av无码中文| 亚洲国产精品成人| 久久亚洲国产午夜精品理论片|