首頁(yè) > 文章中心 > 大數(shù)據(jù)庫(kù)建設(shè)方案

      大數(shù)據(jù)庫(kù)建設(shè)方案

      前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇大數(shù)據(jù)庫(kù)建設(shè)方案范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

      大數(shù)據(jù)庫(kù)建設(shè)方案

      大數(shù)據(jù)庫(kù)建設(shè)方案范文第1篇

      關(guān)鍵詞:中間庫(kù);數(shù)據(jù)轉(zhuǎn)換;設(shè)計(jì)

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)26-0115-02

      隨著大數(shù)據(jù)時(shí)代的來臨,數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系被進(jìn)一步挖掘,并在此基礎(chǔ)上進(jìn)行綜合分析,形成決策。將不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)聯(lián)合起來,形成相關(guān),具有多種解決方案,設(shè)計(jì)一個(gè)中間庫(kù)和一個(gè)中間件,專門負(fù)責(zé)數(shù)據(jù)的聯(lián)系和轉(zhuǎn)換,是當(dāng)前主流的解決方案。

      1 現(xiàn)狀

      伴隨信息化的高速發(fā)展,我國(guó)絕大多數(shù)中小型企業(yè)和單位在信息化建設(shè)方面已經(jīng)取得一定的成效,但在大數(shù)據(jù)背景下,以往建設(shè)的信息化系統(tǒng)出現(xiàn)了如下明顯問題:

      1)信息化孤島。有些政府和事業(yè)單位,根據(jù)自身的業(yè)務(wù)范圍,已經(jīng)建設(shè)了幾十個(gè)大小不一的信息管理系統(tǒng),這些系統(tǒng)中,每個(gè)系統(tǒng)都有一個(gè)自身獨(dú)立的數(shù)據(jù)庫(kù),系統(tǒng)與系統(tǒng)之間,數(shù)據(jù)庫(kù)與數(shù)據(jù)庫(kù)之間即使具有相同的字段,它們也沒有任何數(shù)據(jù)關(guān)聯(lián)。

      2)由于數(shù)據(jù)庫(kù)沒有關(guān)聯(lián),則存在著明顯的二次錄入現(xiàn)象,比如一個(gè)人員名單的增加,需要在人事系統(tǒng)中增加,也需要在業(yè)務(wù)數(shù)據(jù)庫(kù)中增加,工作量大而繁瑣。

      3)數(shù)據(jù)不一致。由于一條信息可能會(huì)在多個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)中出現(xiàn),如果這條信息沒有及時(shí)流通到相關(guān)部門中,則這個(gè)部門數(shù)據(jù)庫(kù)的數(shù)據(jù)不會(huì)更新,比如在一個(gè)高校的招生中,招生部門錄取了一名學(xué)生,但名單還未到達(dá)教務(wù)處前,教務(wù)處的系統(tǒng)沒有更新,導(dǎo)致了數(shù)據(jù)的不一致性。

      4)數(shù)據(jù)沉睡。由于不同的數(shù)據(jù)庫(kù)之間沒有聯(lián)系,故不能挖掘相關(guān)數(shù)據(jù)的相關(guān)性,不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)不能聯(lián)合分析,致使數(shù)據(jù)沉睡,價(jià)值發(fā)揮不足。

      基于以上的問題,將不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)有效聯(lián)系起來,成為了數(shù)據(jù)有效發(fā)揮其價(jià)值的重要環(huán)節(jié)。

      2 中間件設(shè)計(jì)

      1)模型設(shè)計(jì)

      經(jīng)過多年的信息化建設(shè),眾多企業(yè)和單元已經(jīng)具備多套信息管理系統(tǒng),這些系統(tǒng)和系統(tǒng)之間具有如下特征:

      ① 系統(tǒng)之間相互孤立。在建設(shè)初期,每個(gè)系統(tǒng)都擁有獨(dú)立的數(shù)據(jù)庫(kù),各數(shù)據(jù)庫(kù)之間沒有聯(lián)系,修改其中一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù),其他數(shù)據(jù)庫(kù)的數(shù)據(jù)不受影響。

      ② 系統(tǒng)之間存在聯(lián)系。在操作某個(gè)業(yè)務(wù)時(shí),修改一個(gè)數(shù)據(jù)庫(kù)中的信息,其他數(shù)據(jù)庫(kù)中的信息可能要改變。如刪除一個(gè)名單時(shí),涉及多個(gè)系統(tǒng)多次刪除,形成二次錄入。

      ③ 新形勢(shì)下需要將多系統(tǒng)數(shù)據(jù)聯(lián)合分析。在大數(shù)據(jù)背景下,需要將所有的信息系統(tǒng)統(tǒng)一起來進(jìn)行綜合分析,以形成精準(zhǔn)決策和精準(zhǔn)管理。

      其具體模型如圖1:

      上述問題至少有2種解決方案

      方案1:在設(shè)計(jì)統(tǒng)一查詢平臺(tái)時(shí),將綜合平臺(tái)的每一項(xiàng)信息與各業(yè)務(wù)平臺(tái)中的數(shù)據(jù)聯(lián)立。當(dāng)需要在統(tǒng)一查詢平臺(tái)上查詢某些信息時(shí),在其中一個(gè)或幾個(gè)數(shù)據(jù)庫(kù)聯(lián)合查詢即可,如需進(jìn)行數(shù)據(jù)轉(zhuǎn)換,則進(jìn)行適當(dāng)轉(zhuǎn)換。當(dāng)綜合平臺(tái)中某個(gè)數(shù)據(jù)修改時(shí),對(duì)應(yīng)的若干個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)統(tǒng)一完成修改。

      方案2:在設(shè)計(jì)統(tǒng)一查詢平臺(tái)時(shí),設(shè)計(jì)一個(gè)中間庫(kù)。中間庫(kù)與各基礎(chǔ)庫(kù)聯(lián)立統(tǒng)一查詢平臺(tái)只在中間庫(kù)上進(jìn)行查詢,在統(tǒng)一查詢平臺(tái)上進(jìn)行修改操作直接修改中間數(shù)據(jù)庫(kù)。在中間數(shù)據(jù)庫(kù)和各基礎(chǔ)業(yè)務(wù)數(shù)據(jù)庫(kù)之間,設(shè)計(jì)一個(gè)數(shù)據(jù)轉(zhuǎn)換模型,設(shè)計(jì)中間庫(kù)與基礎(chǔ)庫(kù)數(shù)據(jù)之間的轉(zhuǎn)換關(guān)系和轉(zhuǎn)換規(guī)則。具體見圖2:

      比較分析方案1和方案2可以發(fā)現(xiàn),方案2明顯優(yōu)于方案1。方案1具有兩大明顯不足,一是綜合統(tǒng)一平臺(tái)在查詢某個(gè)數(shù)據(jù)時(shí),需要從業(yè)務(wù)數(shù)據(jù)庫(kù)中調(diào)取,這個(gè)數(shù)據(jù)有可能存在多個(gè)數(shù)據(jù)庫(kù)中,多個(gè)數(shù)據(jù)庫(kù)對(duì)這個(gè)數(shù)據(jù)的保存信息可能不一致,綜合查詢平臺(tái)基于不同的基礎(chǔ)業(yè)務(wù)數(shù)據(jù)庫(kù)時(shí),查詢結(jié)果不一樣。二是每次在修改數(shù)據(jù)時(shí),都需要向多個(gè)數(shù)據(jù)庫(kù)寫數(shù)據(jù),所有的數(shù)據(jù)庫(kù)都必須全部打開等待數(shù)據(jù)寫入,非常浪費(fèi)系統(tǒng)資源。

      方案2設(shè)計(jì)了一個(gè)中間庫(kù),統(tǒng)一查詢平臺(tái)的數(shù)據(jù)查詢都基于此中間庫(kù),平臺(tái)修改的數(shù)據(jù)也僅僅是修改中間庫(kù)的數(shù)據(jù),中間庫(kù)設(shè)計(jì)了一個(gè)觸發(fā)器,當(dāng)中間庫(kù)有變化時(shí),才向各業(yè)務(wù)數(shù)據(jù)庫(kù)寫入數(shù)據(jù),當(dāng)各基礎(chǔ)業(yè)務(wù)數(shù)據(jù)庫(kù)發(fā)生變化時(shí),向中間庫(kù)寫入數(shù)據(jù)。也可以設(shè)計(jì)一個(gè)算法,定時(shí)批量同步數(shù)據(jù)。

      2)數(shù)據(jù)同步方案

      ① 數(shù)據(jù)轉(zhuǎn)換基本流程

      數(shù)據(jù)同步時(shí),有兩種情況,第一種是統(tǒng)一查詢平臺(tái)修改數(shù)據(jù)后,中間數(shù)據(jù)庫(kù)的數(shù)據(jù)被修改,按照一定的規(guī)程根據(jù)被修改的中間數(shù)據(jù)庫(kù)的情況修改業(yè)務(wù)數(shù)據(jù)庫(kù),其基本流程對(duì)應(yīng)于圖3。第二種情況是,在各業(yè)務(wù)平臺(tái)上修改了數(shù)據(jù),這些數(shù)據(jù)引起了業(yè)務(wù)基礎(chǔ)庫(kù)的更新,更新的數(shù)據(jù)庫(kù)將引起中間庫(kù)的更新,其基本流程圖對(duì)應(yīng)于圖4。

      ② 數(shù)據(jù)同步方案

      中間數(shù)據(jù)庫(kù)與業(yè)務(wù)基礎(chǔ)庫(kù)中相同變量的對(duì)應(yīng)關(guān)系是一對(duì)多,在中間數(shù)據(jù)中修改一個(gè)數(shù)據(jù),可能涉及多個(gè)業(yè)務(wù)基礎(chǔ)庫(kù)的修改,但每個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)修改的方式又不一樣。如在中間數(shù)據(jù)庫(kù)中增加一個(gè)姓名,定義為8個(gè)字節(jié),業(yè)務(wù)基礎(chǔ)數(shù)據(jù)庫(kù)1和業(yè)務(wù)基礎(chǔ)數(shù)據(jù)庫(kù)2都涉及了姓名列,但在業(yè)務(wù)數(shù)據(jù)庫(kù)1中,其字段長(zhǎng)度為20,而業(yè)務(wù)基礎(chǔ)庫(kù)2中,其字段長(zhǎng)度為30,故在轉(zhuǎn)換時(shí),需要為中間數(shù)據(jù)庫(kù)每一個(gè)字段與所有的業(yè)務(wù)基礎(chǔ)庫(kù)的相同字段定義好轉(zhuǎn)換規(guī)則,在轉(zhuǎn)換時(shí),必須查找對(duì)應(yīng)的規(guī)則進(jìn)行轉(zhuǎn)換。

      大數(shù)據(jù)庫(kù)建設(shè)方案范文第2篇

      【關(guān)鍵詞】 大數(shù)據(jù) 電信運(yùn)營(yíng)商 4V Hadoop Spark 流計(jì)算

      一、引言

      大數(shù)據(jù)的應(yīng)用是在互聯(lián)網(wǎng)的高速發(fā)展中誕生的。谷歌提出了一套以分布式為特征的全新技術(shù)體系,即分布式文件系統(tǒng)(GFS,Google File System)、分布式并行計(jì)算(MapReduce)和分布式數(shù)據(jù)庫(kù)(BigTable)等技術(shù)。這些技術(shù)奠定了當(dāng)前大數(shù)據(jù)技術(shù)的基礎(chǔ),可以認(rèn)為是大數(shù)據(jù)技術(shù)的源頭。

      二、大數(shù)據(jù)發(fā)展現(xiàn)狀

      近年大數(shù)據(jù)的發(fā)展呈現(xiàn)以下兩個(gè)特征:1)互聯(lián)網(wǎng)公司引領(lǐng)大數(shù)據(jù)發(fā)展。互聯(lián)網(wǎng)公司在搜索、廣告領(lǐng)域積極采用大數(shù)據(jù)技術(shù)優(yōu)化既有業(yè)務(wù)。二是今年以來陸續(xù)推出一系列面向第三方的大數(shù)據(jù)服務(wù)。2)傳統(tǒng)企業(yè)大數(shù)據(jù)應(yīng)用仍處在探索期,發(fā)展?jié)u趨理性。傳統(tǒng)企業(yè)在大數(shù)據(jù)應(yīng)用的思路上也在糾偏,更加務(wù)實(shí)。一是更加注重更干凈、結(jié)構(gòu)化小的數(shù)據(jù)。二是更加注重企業(yè)自身沉淀下來的內(nèi)部數(shù)據(jù)的價(jià)值挖掘。三是更加注重根業(yè)務(wù)需求把Hadoop 與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)結(jié)合起來用。

      三、大數(shù)據(jù)關(guān)鍵技術(shù)

      1)大數(shù)據(jù)存儲(chǔ)管理。傳統(tǒng)的單機(jī)文件系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)要求一個(gè)文件系統(tǒng)的數(shù)據(jù)必須存儲(chǔ)在一臺(tái)物理機(jī)上,在冗余性、可擴(kuò)展性和容錯(cuò)能力和并發(fā)能力上難以滿足大數(shù)據(jù)的需求。2)大數(shù)據(jù)計(jì)算能力。傳統(tǒng)的數(shù)據(jù)計(jì)算能力的提升依賴于擴(kuò)容單機(jī)的CPU性能、增加內(nèi)存、擴(kuò)展磁盤等方式,難以支撐平滑擴(kuò)容。以MapReduce為代表的分布式并行計(jì)算技術(shù)可以通過低成本的通用服務(wù)器搭建系統(tǒng)。通過添加服務(wù)器擴(kuò)展系統(tǒng)的總處理能力。3)大數(shù)據(jù)分析技術(shù)。大數(shù)據(jù)分析主要在兩個(gè)方面,一是對(duì)海量的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效率的深度分析,如從文本網(wǎng)頁(yè)中進(jìn)行自然語言分析;二是對(duì)非結(jié)構(gòu)化的語音、圖片和視頻進(jìn)行機(jī)器可以識(shí)別的分析提取有用的信息。

      四、大數(shù)據(jù)的主流技術(shù)

      1、Hadoop。Hadoop是基于Java語言開發(fā),以分布式文件系統(tǒng)和Mapreduce為核心。其特點(diǎn)如下:1)可擴(kuò)展性:Hadoop運(yùn)行在基于X86結(jié)構(gòu)的普通PC服務(wù)器或刀片服務(wù)器上,硬件和軟件松耦合在一起,可以很方便的增加計(jì)算節(jié)點(diǎn)。2)可靠性:Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布計(jì)算。3)低成本:Hadoop架構(gòu)在廉價(jià)的硬件服務(wù)器上,不需要昂貴的硬件作支撐。其軟件是開源產(chǎn)品,不需要授權(quán)費(fèi)用。4)高效性:相比傳統(tǒng)并行計(jì)算結(jié)構(gòu),Hadoop的計(jì)算和存儲(chǔ)是一體的,實(shí)現(xiàn)任務(wù)之間無共享,I/O開銷小。

      2、Spark。Spark擁有MapReduce的優(yōu)點(diǎn),但不同于MapReduce的Job中間輸出,其結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS。其有以下特點(diǎn):1)速度快。Spark支持內(nèi)存計(jì)算,對(duì)于小數(shù)據(jù)集能達(dá)到亞秒級(jí)的延遲。2)易于使用。Spark支持Sscala、Java和Python編寫程序。Spark提供了超過80個(gè)高級(jí)運(yùn)算符,以便于更容易的構(gòu)建并行應(yīng)用程序。3)與HDFS底層兼容。Spark能夠運(yùn)行在Hadoop 2.x的YARN集群管理器上,并且能夠讀取任何存在Hadoop數(shù)據(jù)。

      2、流計(jì)算。流式數(shù)據(jù)是指將數(shù)據(jù)看作數(shù)據(jù)流的形式來處理。數(shù)據(jù)流是在時(shí)間分布和數(shù)量上無限的一系列動(dòng)態(tài)數(shù)據(jù)集合體;數(shù)據(jù)記錄是數(shù)據(jù)流的最小組成單元。流計(jì)算的技術(shù)特點(diǎn)如下:1)實(shí)時(shí)性。流數(shù)據(jù)是實(shí)時(shí)產(chǎn)生、實(shí)時(shí)計(jì)算,結(jié)果反饋往往也需要保證及時(shí)性。2)易失性。在流計(jì)算環(huán)境中,數(shù)據(jù)流往往是到達(dá)后立即被計(jì)算并使用,只有極少數(shù)的數(shù)據(jù)才會(huì)被持久化地保存下來,大多數(shù)數(shù)據(jù)往往會(huì)被直接丟棄。3)突發(fā)性。在流計(jì)算中,數(shù)據(jù)的產(chǎn)生完全由數(shù)據(jù)源確定,由于不同的數(shù)據(jù)源在不同時(shí)空范圍內(nèi)的狀態(tài)不統(tǒng)一且發(fā)生動(dòng)態(tài)變化,導(dǎo)致數(shù)據(jù)流的速率呈現(xiàn)出了突發(fā)性的特征。

      五、主流技術(shù)方案比較

      目前大數(shù)據(jù)平臺(tái)建設(shè)最常見的是基于Hadoop平臺(tái)和MPP數(shù)據(jù)庫(kù)的兩種方案。Hadoop、MPP數(shù)據(jù)庫(kù)和傳統(tǒng)數(shù)據(jù)庫(kù)并非是互相取代的關(guān)系。因此,在很多大數(shù)據(jù)解決方案中,單一大數(shù)據(jù)技術(shù)無法滿足所有的要求,而是要根據(jù)實(shí)際場(chǎng)景采用不同的技術(shù)方案或采用混搭架構(gòu)進(jìn)行綜合處理。

      六、電信運(yùn)營(yíng)商大數(shù)據(jù)部署建議

      大數(shù)據(jù)平臺(tái)建設(shè)目前有兩種方式,建議采用第2種方式:1)以現(xiàn)有分析系統(tǒng)BI為基礎(chǔ),進(jìn)行擴(kuò)展,構(gòu)建統(tǒng)一開放數(shù)據(jù)平臺(tái)。2)以統(tǒng)一數(shù)據(jù)管理為契機(jī),通過數(shù)據(jù)統(tǒng)一采集、存儲(chǔ)與處理入手,新建大數(shù)據(jù)平臺(tái)。方式2可迅速匯聚數(shù)據(jù),不影響現(xiàn)網(wǎng)各系統(tǒng)的運(yùn)行,后期可將經(jīng)分,性能管理等系統(tǒng)上移為數(shù)據(jù)集市,專注于專業(yè)分析。各數(shù)據(jù)源僅將數(shù)據(jù)送往大數(shù)據(jù)平臺(tái)。

      大數(shù)據(jù)技術(shù)架構(gòu)建議按照“松耦合、標(biāo)準(zhǔn)化、分層開放”的標(biāo)準(zhǔn)進(jìn)行方案選取。而在數(shù)據(jù)層面,運(yùn)營(yíng)商面臨數(shù)據(jù)規(guī)模大,數(shù)據(jù)處理復(fù)雜,數(shù)據(jù)結(jié)構(gòu)多樣化等多種挑戰(zhàn)。無論是傳統(tǒng)數(shù)據(jù)庫(kù)還是分布式數(shù)據(jù)庫(kù),均難以單獨(dú)滿足數(shù)據(jù)存儲(chǔ)和分析的需求。大數(shù)據(jù)平臺(tái)建議采用Hadoop作為大數(shù)據(jù)的主要存儲(chǔ)平臺(tái),各分析集市、應(yīng)用系統(tǒng)可根據(jù)數(shù)據(jù)分析的深度,實(shí)時(shí)性采取Hadoop,Spark或MPP混搭架構(gòu)。

      參 考 文 獻(xiàn)

      大數(shù)據(jù)庫(kù)建設(shè)方案范文第3篇

      面對(duì)中國(guó)大數(shù)據(jù)市場(chǎng)的蓬勃發(fā)展和實(shí)際需求,IBM不斷加大對(duì)中國(guó)市場(chǎng)的投入,以領(lǐng)先的大數(shù)據(jù)與分析技術(shù)促進(jìn)大數(shù)據(jù)在零售、銀行、電信、醫(yī)療、制造和互聯(lián)網(wǎng)等諸多行業(yè)落地,這與企業(yè)對(duì)大數(shù)據(jù)應(yīng)用的熱情形成良性互動(dòng),加速了最有說服力的、實(shí)打?qū)嵉摹鞍咐钡南群笥楷F(xiàn)。

      實(shí)踐時(shí)代到來

      “數(shù)據(jù)是競(jìng)爭(zhēng)資源”、“細(xì)分市場(chǎng)越小,對(duì)數(shù)據(jù)的需求越大”,這些觀念已經(jīng)逐漸深入人心,大數(shù)據(jù)在證明其對(duì)企業(yè)的重要性和必要性后,走進(jìn)了“榜樣就是力量”的實(shí)戰(zhàn)階段——展望全球,IBM大數(shù)據(jù)與分析在全球的客戶數(shù)已經(jīng)突破3萬家。

      談到中國(guó)的大數(shù)據(jù)市場(chǎng),IBM全球副總裁兼大中華區(qū)軟件集團(tuán)總經(jīng)理胡世忠表示:“IBM大數(shù)據(jù)與分析業(yè)已邁進(jìn)‘中國(guó)實(shí)踐階段’。中國(guó)的人口和經(jīng)濟(jì)規(guī)模決定了中國(guó)具有全球最大的大數(shù)據(jù)規(guī)模,同時(shí)也意味著中國(guó)的大數(shù)據(jù)與分析解決方案比其他國(guó)家更具創(chuàng)新性。另外,中國(guó)經(jīng)濟(jì)發(fā)展面臨的諸多挑戰(zhàn)需要大數(shù)據(jù)這種創(chuàng)新方式提供更好的解決方案,這一巨大的需求在客觀上為中國(guó)提供了廣泛的大數(shù)據(jù)實(shí)踐機(jī)會(huì)。我們相信,對(duì)于大數(shù)據(jù),中國(guó)面臨前所未有的機(jī)遇,有望在這一領(lǐng)域引領(lǐng)全球技術(shù)發(fā)展趨勢(shì)。”

      要落地,如何降低大數(shù)據(jù)分析成本、降低部署難度、提高分析速度是大數(shù)據(jù)應(yīng)用無論如何也逃避不了的難點(diǎn),也是企業(yè)最頭疼的關(guān)鍵點(diǎn)。IBM從這三點(diǎn)入手,實(shí)際效果不辯自明。

      青島銀行以PureData for Transactions專家集成系統(tǒng)支持公司數(shù)據(jù)中心建設(shè),以整合的專家能力賦能大數(shù)據(jù),支持公司數(shù)據(jù)中心建設(shè),建立了高可用、高性能、簡(jiǎn)單、易于安裝、簡(jiǎn)化運(yùn)維、能夠?yàn)榍鄭u銀行新柜面業(yè)務(wù)和其他重要交易業(yè)務(wù)提供可靠的數(shù)據(jù)平臺(tái)系統(tǒng)。

      安聯(lián)全球救援(中國(guó))對(duì)原有的數(shù)據(jù)分析和報(bào)告系統(tǒng)進(jìn)行升級(jí),利用IBM Cognos 10業(yè)務(wù)分析技術(shù)和解決方案來全面支持“安聯(lián)全球救援業(yè)務(wù)分析智能系統(tǒng)”,從而更好地管理和運(yùn)營(yíng)自身的數(shù)據(jù)庫(kù),提高服務(wù)和運(yùn)營(yíng)水平,將更有價(jià)值的業(yè)務(wù)分析和預(yù)測(cè)提供給企業(yè)級(jí)汽車客戶。

      安聯(lián)全球救援(中國(guó))首席運(yùn)營(yíng)官金卡羅(Giancarlo Scupino)表示:“IBM大數(shù)據(jù)分析將我們的業(yè)務(wù)分析能力提升到了一個(gè)新的高度,使我們不再局限于過去簡(jiǎn)單的人工數(shù)據(jù)統(tǒng)計(jì),而是對(duì)數(shù)據(jù)進(jìn)行了更高層次的總結(jié)和分析。”

      技術(shù)的力量

      支持這諸多應(yīng)用成功落地的正是IBM在大數(shù)據(jù)和分析領(lǐng)域的不斷努力和層出不窮的新產(chǎn)品。正如IBM全球副總裁兼IBM中國(guó)開發(fā)中心總經(jīng)理王陽所描述的:“如果你想要走進(jìn)大數(shù)據(jù)時(shí)代,IBM會(huì)給你帶來強(qiáng)有力的武器,以產(chǎn)品和解決方案幫助你來實(shí)現(xiàn)大數(shù)據(jù)時(shí)代的勝利。”

      “IBM創(chuàng)新的大數(shù)據(jù)技術(shù)和解決方案,能夠?qū)崿F(xiàn)數(shù)據(jù)的快速挖掘與分析,幫助企業(yè)更加高效地獲取大數(shù)據(jù)價(jià)值,從而深化客戶關(guān)系,規(guī)避風(fēng)險(xiǎn)和詐騙,快速尋找新的業(yè)務(wù)機(jī)遇,提升業(yè)務(wù)表現(xiàn)。” IBM大中華區(qū)系統(tǒng)與科技事業(yè)部技術(shù)總監(jiān)李永輝了IBM大數(shù)據(jù)與分析新產(chǎn)品及實(shí)現(xiàn)路線圖。

      大數(shù)據(jù)庫(kù)建設(shè)方案范文第4篇

      關(guān)鍵詞: 大數(shù)據(jù);電信網(wǎng)絡(luò);精簡(jiǎn)架構(gòu);數(shù)據(jù)即服務(wù)

      Abstract: In this paper, we discuss a number of domestic and international big-data telecommunications architectures and propose our own lean big-data architecture. This new architecture combines the practical application scenarios of operators, and the universal large platform is abandoned. There are two directions in big-data development: improving business efficiency and providing data as a service (DaaS). Capturing, managing, and mining core data of a telecom operator is the basis for service implementation. Rapid deployment and application of big data is the final target. A balance also needs to be struck between in efficiency, cost and time when deploying a big-data architecture.

      Key words: big data; telecommunications network; lean architecture; data as a service

      中圖分類號(hào):TN915.03; TP393.03 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1009-6868 (2013) 04-0039-003

      1 電信運(yùn)營(yíng)商建設(shè)大數(shù)據(jù)

      思路及關(guān)鍵技術(shù)

      運(yùn)營(yíng)商的網(wǎng)絡(luò)和用戶是運(yùn)營(yíng)商的核心資產(chǎn),而其中流動(dòng)的數(shù)據(jù)(包括用戶配置基礎(chǔ)數(shù)據(jù)、網(wǎng)絡(luò)信令數(shù)據(jù)、網(wǎng)管/日志數(shù)據(jù)、用戶位置數(shù)據(jù)、終端信息)是運(yùn)營(yíng)商的核心數(shù)據(jù)資產(chǎn)。對(duì)于運(yùn)營(yíng)商來說,最有價(jià)值的數(shù)據(jù)來自基礎(chǔ)電信網(wǎng)絡(luò)本身,對(duì)于基礎(chǔ)管道數(shù)據(jù)的挖掘和分析是運(yùn)營(yíng)商大數(shù)據(jù)挖掘的最重要方向。抓取、管理和挖掘這些數(shù)據(jù)是運(yùn)營(yíng)商的當(dāng)務(wù)之急[1-2]。運(yùn)營(yíng)商基于核心數(shù)據(jù)的大數(shù)據(jù)應(yīng)用可從兩個(gè)方面入手:

      (1)通過大數(shù)據(jù)應(yīng)用提升自身運(yùn)營(yíng)效率。比較典型的應(yīng)用包括:信令多維分析、網(wǎng)絡(luò)綜合管理及分析、業(yè)務(wù)和運(yùn)營(yíng)支撐系統(tǒng)(BOSS)經(jīng)營(yíng)綜合分析、精準(zhǔn)營(yíng)銷等。

      (2)通過數(shù)據(jù)即服務(wù)(DAAS)拓展新的服務(wù)內(nèi)容,提供對(duì)外服務(wù)。包括個(gè)體及群體的位置信息以及用戶行為分析等,對(duì)于第三方公司(比如零售業(yè)或者咨詢公司、政府等)都是非常有價(jià)值的信息。運(yùn)營(yíng)商可以基于這些數(shù)據(jù)提供對(duì)外DAAS服務(wù),拓展市場(chǎng)空間。

      為了構(gòu)建電信運(yùn)營(yíng)的大數(shù)據(jù)應(yīng)用,從技術(shù)能力的角度可以分為數(shù)據(jù)收集與存儲(chǔ)、信息檢索匯聚、知識(shí)發(fā)現(xiàn)以及智慧4個(gè)層面。電信大數(shù)據(jù)技術(shù)層面如圖1所示。自下而上數(shù)據(jù)挖掘深度增加,難度加大,對(duì)于系統(tǒng)的智能需求提升。其中關(guān)鍵的技術(shù)包括抽取轉(zhuǎn)換裝載(ETL)、并行計(jì)算框架、分布式數(shù)據(jù)庫(kù)、分布式文件系統(tǒng)和數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等。

      面對(duì)海量的大數(shù)據(jù),如何有效進(jìn)行數(shù)據(jù)處理是需要解決的迫切問題,分布式并行處理是有效手段。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)多采用共享磁盤(Sharing-disk)架構(gòu),當(dāng)數(shù)據(jù)量達(dá)到一定程度,將面臨處理的“瓶頸”以及擴(kuò)展的困難,同時(shí)成本也偏高。當(dāng)前有效的做法是采用分布式文件系統(tǒng)/分布式數(shù)據(jù)庫(kù)結(jié)合做分布并行處理。目前基于開源的Hadoop平臺(tái)是業(yè)界采用較廣泛的一個(gè)實(shí)現(xiàn)方案。Hadoop[3]的核心思想是基于Hadoop分布式文件系統(tǒng)(HDFS)存儲(chǔ)文件或者基于HBase數(shù)據(jù)庫(kù)(也是基于HDFS),使用分布式并行計(jì)算框架MapReduce來并行執(zhí)行分發(fā)Map操作以及Reduce歸約操作。在Hadoop的計(jì)算模型中,計(jì)算節(jié)點(diǎn)與存儲(chǔ)節(jié)點(diǎn)合一。存儲(chǔ)數(shù)據(jù)的普通PC服務(wù)器可以執(zhí)行MapReduce的任務(wù)。而在Sharing-disk模型中,存儲(chǔ)節(jié)點(diǎn)與計(jì)算節(jié)點(diǎn)是分離的,存儲(chǔ)的數(shù)據(jù)需要傳送到計(jì)算節(jié)點(diǎn)做計(jì)算。Hadoop計(jì)算模型適合離線批處理的場(chǎng)景,比如Log日志分析、文檔統(tǒng)計(jì)分析等。它是關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)的有益補(bǔ)充。

      在私有技術(shù)上實(shí)現(xiàn)分布式存儲(chǔ)和并行處理,在調(diào)用接口上與Hadoop兼容,這是一個(gè)可行的技術(shù)方案。這種方案可以避免上述Hadoop的缺點(diǎn),同時(shí)在性能上做更多的優(yōu)化。有效的手段包括增加數(shù)據(jù)本地性(Data Locality)特性,在多次迭代的計(jì)算過程減少數(shù)據(jù)在不同節(jié)點(diǎn)之間的傳送;使用索引和緩存加快數(shù)據(jù)的處理速度。結(jié)合存儲(chǔ)和計(jì)算硬件進(jìn)行調(diào)優(yōu)也是有效的手段,可以使用數(shù)據(jù)的分層存儲(chǔ),將數(shù)據(jù)分布在內(nèi)存、固態(tài)硬盤(SSD)、硬盤等不同介質(zhì)上[4],使得與計(jì)算資源達(dá)到很好的平衡。

      面對(duì)海量數(shù)據(jù)實(shí)時(shí)性的要求,比較有效的方式是采用復(fù)雜事件處理(CEP)[5]。實(shí)時(shí)流處理采用事件觸發(fā)機(jī)制,對(duì)于輸入的事件在內(nèi)存中及時(shí)處理。同時(shí)對(duì)于多個(gè)事件能合成一個(gè)事件[6]。實(shí)時(shí)流處理需要支持規(guī)則以滿足靈活的事件處理要求。實(shí)時(shí)流處理可以使用分布式內(nèi)存數(shù)據(jù)庫(kù)、消息總線等機(jī)制來實(shí)現(xiàn)快速實(shí)時(shí)響應(yīng)。目前商用的CEP產(chǎn)品有不少,但是在功能、性能以及適用范圍上有較大差異,選擇成熟度高以及合適的產(chǎn)品是關(guān)鍵。

      針對(duì)大數(shù)據(jù)中大量的半結(jié)構(gòu)化或者非結(jié)構(gòu)數(shù)據(jù),NoSQL數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生。NoSQL數(shù)據(jù)庫(kù)放棄關(guān)系模型,弱化事務(wù),支持海量存儲(chǔ)、高可擴(kuò)展性、高可用及高并發(fā)需求。NoSQL數(shù)據(jù)庫(kù)在特定應(yīng)用場(chǎng)景下有很高的優(yōu)勢(shì),是傳統(tǒng)數(shù)據(jù)庫(kù)的有效補(bǔ)充。按照數(shù)據(jù)模型,NoSQL主要有四大類:鍵-值(Key-Value)型、列存儲(chǔ)型、文檔型、圖型,它們對(duì)應(yīng)不同的應(yīng)用場(chǎng)景。比如Key-Value型適合簡(jiǎn)單鍵-值對(duì)的高效查詢,而圖型適合社交關(guān)系的存儲(chǔ)和高效查詢。

      針對(duì)大數(shù)據(jù)挖掘分析、搜索以及機(jī)器自適應(yīng)學(xué)習(xí)等技術(shù)在企業(yè)系統(tǒng)中逐步應(yīng)用。相關(guān)的算法種類很多,當(dāng)前需求較多的是分布式挖掘和分布式搜索。

      由于數(shù)據(jù)類型以及數(shù)據(jù)處理方式的改變,傳統(tǒng)ETL已經(jīng)不適用。運(yùn)營(yíng)商需要根據(jù)應(yīng)用場(chǎng)景做不同的規(guī)劃。目前來說,由于運(yùn)營(yíng)商應(yīng)用系統(tǒng)差別較大,尚未有一種統(tǒng)一的處理模式。比較可行的一種方法是依據(jù)數(shù)據(jù)的功用以及特性做分層處理,比如大量的數(shù)據(jù)源首先做初篩,初篩完之后有部分?jǐn)?shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)或者RDBMS或者其他應(yīng)用。初篩可以使用Hadoop或者CEP或者定制的方式來完成。

      針對(duì)運(yùn)營(yíng)商的不同應(yīng)用場(chǎng)景,需要采用不同的技術(shù)或者技術(shù)組合。比如用戶實(shí)時(shí)詳單查詢,數(shù)據(jù)量巨大,但是它的數(shù)據(jù)類型簡(jiǎn)單,數(shù)據(jù)以讀為主,不需要復(fù)雜的Join操作,數(shù)據(jù)的分布性好。相比傳統(tǒng)的RDBMS,使用Hadoop可以大大提升查詢性能,降低處理成本。更多的應(yīng)用可能需要多種技術(shù)的組合。比如信令采集及多維分析,信令數(shù)據(jù)特別是分組域(PS)信令數(shù)據(jù)量大且實(shí)時(shí)性要求高,有效解決海量數(shù)據(jù)處理與實(shí)時(shí)性要求是它的關(guān)鍵,需要CEP與Hadoop的組合。在當(dāng)前階段,不同的技術(shù)成熟度不一,由于業(yè)界大數(shù)據(jù)應(yīng)用進(jìn)展較快,我們認(rèn)為當(dāng)前針對(duì)不同應(yīng)用的精簡(jiǎn)方案是最合適的,也就是依據(jù)應(yīng)用場(chǎng)景,挑選最合適的組件做組合,摒棄通用化的大平臺(tái)。

      2 中興通訊大數(shù)據(jù)實(shí)踐

      中興通訊依托在云計(jì)算等領(lǐng)域的長(zhǎng)期積累,針對(duì)大數(shù)據(jù)形成了一套完整的技術(shù)體系架構(gòu)。ZTE大數(shù)據(jù)技術(shù)體系架構(gòu)如圖2所示。架構(gòu)依據(jù)運(yùn)營(yíng)商的不同的應(yīng)用需求,注重采用組件搭建的方式,形成端到端的精簡(jiǎn)方案。下面以兩個(gè)具體的案例進(jìn)行說明。

      (1)用戶實(shí)時(shí)位置信息服務(wù)系統(tǒng)

      該系統(tǒng)實(shí)時(shí)采集蜂窩網(wǎng)絡(luò)用戶的動(dòng)態(tài)位置信息,并通過規(guī)范接口提供DAAS服務(wù)。實(shí)際工程中,當(dāng)期接入的用戶數(shù)達(dá)兩千多萬,每天用戶位置更新數(shù)據(jù)可達(dá)40多億條,高峰期更新達(dá)到每秒幾十萬次。除了采集的位置,還可以結(jié)合其他數(shù)據(jù)源比如用戶年齡等屬性做分析,以應(yīng)用編程接口(API)開放給上層應(yīng)用。此外該系統(tǒng)需要有良好的可擴(kuò)展性,后續(xù)可以接入其他區(qū)域的數(shù)據(jù)源。另外這套系統(tǒng)需要有良好的性價(jià)比,成本可控,時(shí)間可控。依據(jù)這些需求,我們?cè)诔墒斓慕M件K-V NoSQL 數(shù)據(jù)庫(kù)的基礎(chǔ)上搭建了系統(tǒng)。用戶實(shí)時(shí)位置信息服務(wù)系統(tǒng)如圖3所示。

      用戶實(shí)時(shí)位置信息服務(wù)系統(tǒng)是一個(gè)典型的精簡(jiǎn)方案,它基于分布式Key-Value NoSQL數(shù)據(jù)庫(kù)的分布式緩存(DCache),組裝了對(duì)位置流事件實(shí)時(shí)處理的系統(tǒng)。DCache既是消息總線,也是內(nèi)存數(shù)據(jù)庫(kù),能很好地滿足實(shí)時(shí)性的要求。同時(shí)DCache基于x86刀片服務(wù)器,采用分布式架構(gòu),系統(tǒng)的擴(kuò)展性很好,成本較低。該系統(tǒng)性能優(yōu)越,穩(wěn)定可靠,取得良好的效果。

      (2)信令監(jiān)測(cè)多維分析系統(tǒng)

      隨著運(yùn)營(yíng)商數(shù)據(jù)業(yè)務(wù)快速增長(zhǎng),運(yùn)營(yíng)商對(duì)于網(wǎng)絡(luò)質(zhì)量提升、網(wǎng)絡(luò)運(yùn)營(yíng)效率有著更大的壓力。通過采集網(wǎng)絡(luò)Gn接口、Mc接口信令并加以處理分析,可以獲得網(wǎng)絡(luò)運(yùn)行的完整視圖,基于信令的相關(guān)專題分析,比如網(wǎng)絡(luò)質(zhì)量分析、流量效率分析、多網(wǎng)協(xié)同分析、客戶投訴及服務(wù)分析等對(duì)于運(yùn)營(yíng)商網(wǎng)絡(luò)運(yùn)營(yíng)有極大的價(jià)值。

      信令監(jiān)測(cè)多維分析的難點(diǎn)在于信令流量大且數(shù)據(jù)量大,比如某運(yùn)營(yíng)商省公司Gn接口峰值流量可以達(dá)到4 Gb/s,每天信令數(shù)據(jù)可達(dá)1 TB。需要采集信令并做多種分析以服務(wù)于不同的部門。

      信令監(jiān)測(cè)多維分析系統(tǒng)采用分層的架構(gòu),便于數(shù)據(jù)共享及和應(yīng)用的擴(kuò)展。信令監(jiān)測(cè)多維分析系統(tǒng)如圖4所示。使用實(shí)時(shí)流處理滿足實(shí)時(shí)性高的數(shù)據(jù)分析要求,對(duì)于會(huì)話或事務(wù)詳單(XDR)初步處理完的數(shù)據(jù)采用傳統(tǒng)RDBMS存儲(chǔ)供后續(xù)分析查詢使用。對(duì)于數(shù)據(jù)量龐大的XDR采用Hadoop HBase存儲(chǔ)并查詢,原始信令采用分布式文件系統(tǒng)存放在本地。

      在這個(gè)方案中,數(shù)據(jù)根據(jù)它的使用特性采用不同的方式存儲(chǔ)和處理,突破RDBMS處理“瓶頸”和擴(kuò)展性的“瓶頸”,達(dá)到了很好的效果。在測(cè)試中,4節(jié)點(diǎn)PC服務(wù)器可以全部承擔(dān)某運(yùn)營(yíng)商省公司PS域XDR的存儲(chǔ),入庫(kù)性能可達(dá)50 Mb/s,針對(duì)上百億條記錄查詢,可以在10 s內(nèi)返回。取得了很好的實(shí)踐效果。

      3 結(jié)束語

      電信運(yùn)營(yíng)商面臨大數(shù)據(jù)發(fā)展的機(jī)遇,都在積極推動(dòng)大數(shù)據(jù)的試點(diǎn)和商用。在當(dāng)前大數(shù)據(jù)技術(shù)快速發(fā)展的形勢(shì)下,根據(jù)需求和應(yīng)用場(chǎng)景搭建精簡(jiǎn)方案,可以幫助運(yùn)營(yíng)商在當(dāng)前激烈競(jìng)爭(zhēng)環(huán)境中快速獲得競(jìng)爭(zhēng)優(yōu)勢(shì),在效率、成本和時(shí)間上取得最佳平衡。

      參考文獻(xiàn)

      [1] Cisco Systems. Cisco visual networking index global mobile data traffic forecast update, 2011 - 2016 [EB/OL]. [2013-03-25]. http://.

      [2] MANYIKA J, CHUI M, BROWN B, et al. Big data: The next frontier for innovation, competition, and productivity [R]. McKinsey Global Institute, 2011.

      [3] WHITE T. Hadoop權(quán)威指南 [M]. 2版. 周敏奇, 王曉玲, 金澈清, 譯. 北京:清華大學(xué)出版社, 2011.

      [4] SNIA. 2012 SNIA Sprint Tutorials-NextGen Infrastructure for Big Data [EB/OL]. [2013-02-15]. http://

      [5] NEUMEYER L, ROBBINS B, NAIR A, et al. S4: Distributed stream computing platform [C]//Proceedings of the IEEE International Conference on Data Mining Workshops (ICDMW’10), Dec 14-17,2010, Sydney, Australia .Los Alamitos, CA, USA: IEEE Computer Society, 2010:170-177.

      [6] SHARON G, ETZION O. Event-processing network model and implementation [J]. IBM Systems Journal, 2008,47(2):321-334.

      作者簡(jiǎn)介

      大數(shù)據(jù)庫(kù)建設(shè)方案范文第5篇

      [關(guān)鍵詞]地質(zhì)大數(shù)據(jù);數(shù)據(jù)中心;建設(shè)

      中圖分類號(hào):P621 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2017)17-0098-02

      地質(zhì)礦產(chǎn)勘查部門經(jīng)營(yíng)幾十年沉淀下海量的各類地學(xué)數(shù)據(jù),由于缺乏有效的管理和綜合開發(fā)利用,大部分依然埋存在數(shù)據(jù)墳?zāi)怪校灾翢o法創(chuàng)造附加價(jià)值。如何盤活這些數(shù)據(jù)資源,將沉淀的數(shù)據(jù)資源價(jià)值最大化,是一個(gè)面臨的重大考驗(yàn)。引入云計(jì)算、大數(shù)據(jù)等新一代信息技術(shù),建設(shè)地質(zhì)大數(shù)據(jù)中心,從而實(shí)現(xiàn)地質(zhì)數(shù)據(jù)智慧化服務(wù)和管理的新模式,為地質(zhì)數(shù)據(jù)資源綜合開發(fā)利用提供基礎(chǔ)保障。

      1 地質(zhì)大數(shù)據(jù)中心發(fā)展趨勢(shì)

      隨著地質(zhì)調(diào)查信息化水平的提高,地質(zhì)大數(shù)據(jù)時(shí)代到來的步伐不斷加快,在大數(shù)據(jù)時(shí)代背景下,地質(zhì)資料的管理、開發(fā)利用以及社會(huì)服務(wù)也將發(fā)生變化,與傳統(tǒng)的資料存儲(chǔ)相比,大數(shù)據(jù)時(shí)代下的地質(zhì)資料數(shù)據(jù)具有載體形式多、數(shù)據(jù)格式多、信息量龐大的特點(diǎn),給數(shù)據(jù)資料管理存儲(chǔ)與應(yīng)用服務(wù)帶來了新的挑戰(zhàn),如何有效保存、快速發(fā)現(xiàn)和獲取成為重要課題,建立具有高性能、容災(zāi)備份能力的數(shù)據(jù)中心成為了當(dāng)今地質(zhì)大數(shù)據(jù)時(shí)代信息化和數(shù)字化的必然要求[1]。

      2 地質(zhì)數(shù)據(jù)化管理現(xiàn)狀

      地質(zhì)數(shù)據(jù)化管理化建設(shè)已經(jīng)開展多年,但目前依然局限于解決某個(gè)部門某個(gè)項(xiàng)目的訴求上,處于比較落后階段。沒有統(tǒng)一的信息化管理平臺(tái),沒有集中管理的數(shù)據(jù)存儲(chǔ)中心。各類地學(xué)數(shù)據(jù)無法統(tǒng)一存儲(chǔ)管理、數(shù)據(jù)安全管理缺失、信息安全管控能力薄弱、系統(tǒng)容災(zāi)性極差的尷尬局面。據(jù)公開數(shù)據(jù)顯示,當(dāng)前已經(jīng)建設(shè)完成涵蓋基礎(chǔ)地質(zhì)數(shù)據(jù)、地質(zhì)礦產(chǎn)數(shù)據(jù)、物化遙數(shù)據(jù)、水工環(huán)數(shù)據(jù)等多專業(yè)的地學(xué)數(shù)據(jù)庫(kù)。但這些數(shù)據(jù)庫(kù)的建設(shè)方式大多數(shù)是簡(jiǎn)單地利GIS系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)來裝載數(shù)據(jù),很少做數(shù)據(jù)層面的資源整合和以需求為主導(dǎo)的二次開發(fā)。不同專業(yè)屬性的數(shù)據(jù)不能互相構(gòu)建互通,造成信息資源分散,共享和統(tǒng)一的程度不高。

      3 地質(zhì)大數(shù)據(jù)中心建設(shè)現(xiàn)實(shí)需求分析

      以存儲(chǔ)、管理、開發(fā)利用地質(zhì)數(shù)據(jù)為主題的大數(shù)據(jù)中心,是地質(zhì)行業(yè)信息化建設(shè)的大放向,以數(shù)據(jù)為核心,連接各類地質(zhì)業(yè)務(wù)平臺(tái),可以促進(jìn)地質(zhì)數(shù)據(jù)共享,有效地提高數(shù)據(jù)資源的利用率,這將成為地質(zhì)數(shù)據(jù)資源轉(zhuǎn)換為地質(zhì)數(shù)據(jù)資產(chǎn)必備條件。

      解決海量地學(xué)數(shù)據(jù)的存儲(chǔ)和各類應(yīng)用系統(tǒng)的整合部署,是目前地質(zhì)大數(shù)據(jù)中心建設(shè)的迫切需求。海量數(shù)據(jù)的存儲(chǔ)需求主要以各類項(xiàng)目和應(yīng)用系統(tǒng)的需求為主導(dǎo),項(xiàng)目包括已經(jīng)完成、正在實(shí)施、計(jì)劃開展的項(xiàng)目。以對(duì)基礎(chǔ)地質(zhì)、礦產(chǎn)地質(zhì)、農(nóng)業(yè)地質(zhì)、礦山環(huán)境、地質(zhì)災(zāi)害、旅游地質(zhì)等的專業(yè)數(shù)據(jù)評(píng)估,都以矢量數(shù)據(jù)、柵格數(shù)據(jù)、文本數(shù)據(jù)、表格等為主,所產(chǎn)生的數(shù)據(jù)都屬于PB級(jí)的數(shù)據(jù)量。為有效對(duì)這些海量數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、管理和深度挖掘,以充分利用數(shù)據(jù)資源,地質(zhì)大數(shù)據(jù)中心建設(shè)成為了未來發(fā)展的必然趨勢(shì)。

      4 地質(zhì)大數(shù)據(jù)中心建設(shè)目標(biāo)和原則

      以地質(zhì)數(shù)據(jù)生產(chǎn)、存儲(chǔ)、管理、開發(fā)、利用為主線,采取統(tǒng)一、分步、集中、共享的建設(shè)方針,逐步構(gòu)建地質(zhì)大數(shù)據(jù)中心為目標(biāo)。

      統(tǒng)一:對(duì)數(shù)據(jù)中心化建設(shè)進(jìn)行統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一規(guī)劃、統(tǒng)一籌備、統(tǒng)一部署、統(tǒng)一管理。避免各個(gè)業(yè)務(wù)部門、地勘單位各自為營(yíng)的建設(shè)。

      分步:設(shè)備會(huì)貶值,技術(shù)會(huì)過時(shí),數(shù)據(jù)中心建設(shè)是一個(gè)長(zhǎng)期工程,不可能一步建設(shè)到位,必須根據(jù)規(guī)劃,依據(jù)實(shí)際需求進(jìn)行分步建設(shè),逐步向目標(biāo)推進(jìn)。

      集中:數(shù)據(jù)中心的硬件資源、軟件資源、網(wǎng)絡(luò)資源進(jìn)行集中采購(gòu)、集中部署、集中管理。避免重屯度胄緯傻淖試蠢朔眩便于軟硬件資源的維護(hù),同時(shí)強(qiáng)化信息安全的管理。

      共享:地勘單位共享硬件資源、軟件資源、網(wǎng)絡(luò)資源,各類資源由管理部門統(tǒng)一調(diào)度,各個(gè)地勘單位原則上不再投入建設(shè)相關(guān)的設(shè)施。

      數(shù)據(jù)中心的建設(shè)必須理清現(xiàn)狀,明確需求,以資源整合、充分利舊、合理升級(jí)為建設(shè)原則。

      資源整合:對(duì)硬件資源、軟件資源、網(wǎng)絡(luò)資源進(jìn)行分析、評(píng)估、整合,各類資源能用就用,統(tǒng)籌部署、合理共享,提高資源利用率。

      充分利舊:充分利用現(xiàn)有基礎(chǔ)設(shè)施資源,可以改建為同城災(zāi)備中心和數(shù)據(jù)機(jī)房。

      合理升級(jí):運(yùn)營(yíng)多年的業(yè)務(wù)系統(tǒng),設(shè)施可能已經(jīng)落后,并且多年沉淀下來的數(shù)據(jù),已屬于海量數(shù)據(jù)。原則上在利舊的前提下,新數(shù)據(jù)中心機(jī)房的建設(shè),在不影響現(xiàn)有數(shù)據(jù)存儲(chǔ)、業(yè)務(wù)系統(tǒng)運(yùn)營(yíng)的情況下,合理升級(jí)數(shù)據(jù)的存儲(chǔ)方案和業(yè)務(wù)系統(tǒng)的運(yùn)營(yíng)策略等。

      5 地質(zhì)大數(shù)據(jù)中心總體方案描述

      數(shù)據(jù)中心建設(shè)的指導(dǎo)思想是:堅(jiān)持整體規(guī)劃、分布實(shí)施、統(tǒng)一標(biāo)準(zhǔn)、整體協(xié)調(diào)、整合發(fā)展、資源共享的原則,以網(wǎng)絡(luò)為基礎(chǔ)、應(yīng)用為重點(diǎn)、信息資源開發(fā)利用為核心,建立一個(gè)高可靠、大容量、安全的數(shù)據(jù)中心。依據(jù)建設(shè)目標(biāo),以業(yè)務(wù)應(yīng)用為驅(qū)動(dòng),切合實(shí)際數(shù)據(jù)存儲(chǔ)規(guī)模需求作為建設(shè)切入點(diǎn)打造全新的地質(zhì)模塊化數(shù)據(jù)中心。數(shù)據(jù)中心的建設(shè)涉及到硬件資源的整合、軟件資源的整合、網(wǎng)絡(luò)資源的整合、業(yè)務(wù)應(yīng)用系統(tǒng)功能整合、各類數(shù)據(jù)庫(kù)的整合,每個(gè)環(huán)節(jié)都需從管理、應(yīng)用、服務(wù)等諸多方面多角度全方位的考慮,并擬出技術(shù)方案方可實(shí)施。

      1)地質(zhì)大數(shù)據(jù)中心應(yīng)用架構(gòu)

      對(duì)各類地質(zhì)數(shù)據(jù)進(jìn)行全面梳理、分析,整合現(xiàn)有的數(shù)據(jù)資源,構(gòu)建完整、規(guī)范、統(tǒng)一的數(shù)據(jù)存儲(chǔ)中心,集中存儲(chǔ),打破部門邊界,實(shí)現(xiàn)資源的有效共享,為今后業(yè)務(wù)系統(tǒng)建設(shè)奠定基礎(chǔ)(圖1)。

      2)地質(zhì)大數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)

      數(shù)據(jù)中心的網(wǎng)絡(luò)構(gòu)架必須統(tǒng)籌局域網(wǎng)內(nèi)部署,同時(shí)協(xié)調(diào)已有的各業(yè)務(wù)系統(tǒng)之間的運(yùn)營(yíng)需求,使這些已有的系統(tǒng)運(yùn)行、真正投入使用,實(shí)現(xiàn)這些業(yè)務(wù)系統(tǒng)與下屬地勘單位互聯(lián)互通,進(jìn)行項(xiàng)目實(shí)時(shí)動(dòng)態(tài)管理。而這些系統(tǒng)運(yùn)轉(zhuǎn)的前提是數(shù)據(jù)中心機(jī)房的建設(shè),需要大力的設(shè)備、人力、物力、財(cái)力的支撐,時(shí)間持續(xù)也很長(zhǎng)久(圖2)。

      3)確立數(shù)據(jù)中心平臺(tái)

      構(gòu)建一套基于軟件定義的云存儲(chǔ)平臺(tái),在標(biāo)準(zhǔn)硬件上構(gòu)建一套系統(tǒng)滿足文件存儲(chǔ)及對(duì)象存儲(chǔ)資源的訴求,并能實(shí)現(xiàn)存儲(chǔ)資源的按需自動(dòng)化發(fā)放。不同類型存儲(chǔ)分別為不同業(yè)務(wù)按需提供存儲(chǔ)資源。

      文件存儲(chǔ)服務(wù):提供NFS、CIFS、FTP和HDFS等標(biāo)準(zhǔn)接口,以卓越性能、大規(guī)模橫向擴(kuò)展能力和超大單一文件系統(tǒng)為用戶提供非結(jié)構(gòu)化數(shù)據(jù)共享存儲(chǔ)資源,應(yīng)用于視頻/音頻海量存儲(chǔ)、大數(shù)據(jù)應(yīng)用等場(chǎng)景。

      對(duì)象存儲(chǔ)服務(wù):兼容Amazon S3與OpenStack Swift,支持融入主流云計(jì)算生態(tài),滿足云備份、云歸檔、IoT及云存儲(chǔ)服務(wù)運(yùn)營(yíng)場(chǎng)景需求。

      通過存儲(chǔ)系統(tǒng)軟件將標(biāo)準(zhǔn)硬件的本地存儲(chǔ)資源組織起來,構(gòu)建全分布式存儲(chǔ)池,實(shí)現(xiàn)一套存儲(chǔ)系統(tǒng)向上層應(yīng)用提供塊、文件和對(duì)象三種存儲(chǔ)資源服務(wù),滿足結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化等多類型數(shù)據(jù)存取對(duì)IOPS、帶寬及海量擴(kuò)展需求;提供快照、精簡(jiǎn)配置、遠(yuǎn)程復(fù)制、多租戶等豐富的企I級(jí)數(shù)據(jù)服務(wù)特性,幫助企業(yè)輕松應(yīng)對(duì)業(yè)務(wù)快速變化時(shí)的數(shù)據(jù)靈活、可靠存取需求。同時(shí),提供基于標(biāo)準(zhǔn)接口協(xié)議的開放API,天然融入OpenStack云基礎(chǔ)架構(gòu)及Hadoop大數(shù)據(jù)生態(tài)[2]。

      4)容量規(guī)劃

      根據(jù)實(shí)際數(shù)據(jù)存儲(chǔ)的容量需求,總體配置1540TB裸容量,滿足1PB可用容量需求,分布式存儲(chǔ)系統(tǒng)最大可達(dá)到4096節(jié)點(diǎn),200PB容量,本期配備11個(gè)節(jié)點(diǎn),兼容未來5年內(nèi)數(shù)據(jù)增長(zhǎng)對(duì)存儲(chǔ)容量的冗余需求。

      5)存儲(chǔ)網(wǎng)絡(luò)拓?fù)?/p>

      存儲(chǔ)的組網(wǎng)架構(gòu)包括管理網(wǎng)絡(luò)、前端業(yè)務(wù)網(wǎng)絡(luò)和后端存儲(chǔ)網(wǎng)絡(luò)。管理網(wǎng)絡(luò)用于云存儲(chǔ)系統(tǒng)與用戶維護(hù)網(wǎng)絡(luò)對(duì)接,為系統(tǒng)管理員提供管理UI,完成系統(tǒng)配置、租戶管理、資源管理、服務(wù)發(fā)放等業(yè)務(wù)操作,以及告警/性能/拓?fù)涞染S護(hù)操作。同時(shí)可以匯聚所有物理節(jié)點(diǎn)的Mgmt接口,提供遠(yuǎn)程設(shè)備維護(hù)能力,如遠(yuǎn)程登錄設(shè)備虛擬KVM、查看溫度、電壓等硬件運(yùn)行數(shù)據(jù)等。前端業(yè)務(wù)網(wǎng)絡(luò)用于云存儲(chǔ)系統(tǒng)與用戶網(wǎng)絡(luò)對(duì)接,為租戶用戶提供租戶UI,完成資源申請(qǐng)、使用情況查詢等操作,并處理租戶客戶端或API發(fā)送的業(yè)務(wù)請(qǐng)求。

      后端存儲(chǔ)網(wǎng)絡(luò)用于云存儲(chǔ)節(jié)點(diǎn)間內(nèi)部互聯(lián),提供HA(High Availability)組件如DSS(Data Service SubSystem)的心跳通信,以及各組件之間的內(nèi)部通信和數(shù)據(jù)交互(圖3)。

      6)地質(zhì)大數(shù)據(jù)中心建設(shè)階段規(guī)劃

      數(shù)據(jù)中心建設(shè)是一個(gè)中長(zhǎng)期建設(shè)的過程,可按數(shù)據(jù)存儲(chǔ)中心、數(shù)據(jù)處理中心、數(shù)據(jù)應(yīng)用中心、數(shù)據(jù)運(yùn)營(yíng)服務(wù)中心五個(gè)階段逐步實(shí)施(圖4)。

      6 地質(zhì)大數(shù)據(jù)中心建設(shè)模式

      地質(zhì)大數(shù)據(jù)中心工程可以考慮參其它單位的模塊化數(shù)據(jù)機(jī)房建設(shè)模式:系統(tǒng)運(yùn)營(yíng)商投資建設(shè),應(yīng)用單位購(gòu)買服務(wù)。

      由于項(xiàng)目建設(shè)初期資金投入大、運(yùn)營(yíng)周期長(zhǎng)、維護(hù)難度大,為了降低項(xiàng)目建設(shè)初期資金籌措風(fēng)險(xiǎn)以及后期運(yùn)行維護(hù)壓力,可借鑒目前硬件商推薦的“系統(tǒng)運(yùn)營(yíng)商投資建設(shè),政府購(gòu)買服務(wù)”。

      該方案的優(yōu)點(diǎn)在于:在系統(tǒng)運(yùn)營(yíng)服務(wù)期內(nèi),政府只需要按年向中標(biāo)的系統(tǒng)運(yùn)營(yíng)商支付系統(tǒng)建設(shè)運(yùn)營(yíng)服務(wù)費(fèi)即可,大大降低財(cái)政資金壓力;同時(shí),不需要再成立專門的平臺(tái)維護(hù)機(jī)構(gòu),專注于業(yè)務(wù)處理,提高行政效率。

      7 結(jié)束語

      在國(guó)家大數(shù)據(jù)互聯(lián)網(wǎng)建設(shè)的背景,針對(duì)目前地質(zhì)數(shù)據(jù)存儲(chǔ)、管理存在的問題和安全隱患提出,為了保障數(shù)據(jù)安全,建立地質(zhì)大數(shù)據(jù)中心,挖掘深層數(shù)據(jù)信息,提高辦公效率,解決存在的隱患問題。通過對(duì)數(shù)據(jù)中心構(gòu)建的可行性分析認(rèn)為是可行的,地質(zhì)大數(shù)據(jù)中心的構(gòu)建推動(dòng)地質(zhì)大數(shù)據(jù)挖掘、綜合利用,促進(jìn)地質(zhì)數(shù)據(jù)資源服務(wù)全行業(yè)的積極作用。

      參考文獻(xiàn):

      相關(guān)期刊更多

      大數(shù)據(jù)

      統(tǒng)計(jì)源期刊 審核時(shí)間1個(gè)月內(nèi)

      工業(yè)和信息化部

      農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào)

      統(tǒng)計(jì)源期刊 審核時(shí)間1個(gè)月內(nèi)

      中華人民共和國(guó)農(nóng)業(yè)農(nóng)村部

      信息通信技術(shù)

      部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

      中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司

      亚洲AV色吊丝无码| 亚洲午夜精品久久久久久人妖| 亚洲av网址在线观看| 久久久久亚洲av毛片大| 国产精品久久久久久亚洲小说| 亚洲欧美自偷自拍另类视| 亚洲一级毛片在线观| 亚洲人成免费电影| 亚洲av成人一区二区三区| 亚洲av无码不卡久久| 亚洲中文字幕无码av永久| 亚洲性色AV日韩在线观看| 国产AV旡码专区亚洲AV苍井空| 亚洲国产精品成人久久久| 亚洲人色大成年网站在线观看| 亚洲国产日韩在线一区| 精品亚洲AV无码一区二区三区| 国产成人精品亚洲日本在线| 亚洲性线免费观看视频成熟| 亚洲人成未满十八禁网站| 亚洲AV综合永久无码精品天堂| 国产精品亚洲专区无码唯爱网 | 精品亚洲成A人无码成A在线观看 | 亚洲国产成人乱码精品女人久久久不卡| 婷婷亚洲综合一区二区| 亚洲国产精品自在拍在线播放| 亚洲欧洲精品成人久久奇米网| 国产精品亚洲美女久久久 | 亚洲第一成年网站大全亚洲| 亚洲一级免费视频| 亚洲日韩乱码中文字幕| 亚洲AV日韩AV无码污污网站 | 亚洲毛片一级带毛片基地| 亚洲免费在线视频播放| 国产成人亚洲综合网站不卡| 国产精品亚洲综合天堂夜夜| 国产日产亚洲系列| 亚洲成年人在线观看| 亚洲人成影院在线高清| 亚洲精品日韩一区二区小说| 亚洲国产人成精品|