前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇關于國慶的詩句范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
關鍵詞:大數據;數據質量;云清洗;Map-Reduce
中圖分類號:TP391 文獻標識號:A
Design and Implementation of Cloud Clean System on Big Data
HUANG Shenbin1 , WANG Haijie1 , ZHU Zhenhua2
(1 Network and Information Center, Harbin Institute of Technology, Harbin 150001, China;
2 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: Data cleaning is one of the central issues in big data. The paper describes a cloud clean system based on Hadoop for data cleaning. Using Map-Reduce model, the system detects and repairs various data quality problems in big data. The paper designs the system from the following features: (1) the support for cleaning multiple data quality problems in big data; (2) a visual tool for watching the status of big data cleaning process and tuning the parameters for data cleaning; (3) the friendly interface for data input and setting and cleaned data collection for big data. The cloud clean system is a promising system that provides efficient and effect data cleaning mechanism for big data in either files or database.
Keywords: Big Data; Data Quality; Cloud Clean; Map-Reduce
0 引 言
大數據已經廣泛地應用于各個領域,其數據質量問題逐漸被人們所關注。這主要是由兩方面的因素導致的:一方面大數據由海量的數據源獲得,不同的數據來源使其更可能存在不一致沖突和不完整性;另一方面則是因為大數據頻繁地變化且難以手動地獲取。數據質量問題嚴重影響著大數據應用的效率,因為低質量數據上的分析和查詢容易導致錯誤結果或者誤導性的決策。數據清洗無疑能夠提升大數據的利用效率。本文設計并實現了一個大數據云清洗系統,提取了數據清洗任務中的基本操作并基于Map-Reduce[1]計算框架實現相應的算法。該系統對多種數據清洗任務均有可觀的性能。
1相關工作
雖然已經有很多數據清洗的技術和算法被相繼提出,但卻并非都適用于大數據上。主要原因如下。
首先,現有的數據清洗算法的效率并不能滿足大數據的需求。并行計算是大數據算法的一個常用手段。然而,除了少數實體識別的算法[2-3]外,幾乎沒有其他的并行數據清洗算法獲得提出。具有多種數據質量問題的大數據清洗工作的整體效率往往也都不高。
其次,現有的數據清洗系統[4-7]集中于數據質量的某一方面。NADEEF[8]支持各種形式的規則,但是缺少數據清洗領域的一些重要問題如缺值填充和沖突屬性的真值發現等。對于具有多種數據質量問題的大數據而言,這往往是不夠高效的。究其原因,一方面多種數據質量問題需要多個不同的系統來完成各自的數據清洗工作,從而導致清洗過程需要多次的導入和導出數據;另一方面,多個數據質量問題往往可能會共享相同的操作,如去除數據冗余[9]和流通數據發現[10]即都需要實體識別。如果不同的數據質量問題均由各自的清洗系統來完成,那么這些相同的操作便將多次執行,不利于全局的優化。
最后,現有的數據清洗系統常常需要設置參數,例如不一致性檢測[11]的約束規則,實體識別[12]的閾值。對于小規模數據來說,這些規則能夠通過人工的觀測和理解來設置。然而對于大數據,僅靠觀察來設置是不合理的,而對整個數據人工的遍歷一遍更是不可能的。
2云清洗系統概述
清洗大數據的一個很直觀、很自然的想法便是將云計算的技術應用其中,并將計算任務分布式地分發給多個節點以提高并行度。本文設計的大數據云清洗系統采用的便是這個思路,基于Map-Reduce封裝實現了數據清洗領域的各類基本問題和清洗操作,包括實體識別、不一致性檢測和修復、缺值填充和真值發現。
云清洗系統基于Hadoop來實現架構,利用Map-Reduce框架系統能夠高效地控制硬件資源執行分布式計算。整個系統的數據流如圖1所示。 圖1 數據流
Fig.1 Data Flow
系統的數據是組織在分布式文件系統中。而輸入數據則是通過文件或者數據庫來提供,前者由用戶上傳,后者將是用戶提供數據庫的連接信息而由系統來訪問。數據輸入后存在于分布式文件系統中,而集群中節點的數據則通過分布式文件系統來訪問。在清洗過程中,數據在mapper和reducer間傳遞,清洗結束后數據被送回到分布式文件系統。和輸入類似,用戶可以將清洗后的數據以文件的形式下載或者提供數據庫連接信息再由系統輸出到數據庫中。
系統的結構如圖2所示,其中包含一個Master和多個Slave節點。具體地,Master 節點接收數據清洗任務的輸入數據、清洗計劃以及參數設置。而清洗計劃即是一個清洗操作序列,由系統提供的四種清洗的基本操作構成,這四種操作分別為實體識別、不一致性檢測和修復、缺值填充和真值發現,并且四種操作可以重復選擇。
圖2 系統結構圖
Fig.2 Architecture of the System
大數據的清洗任務,往往需要很長的時間。在清洗時,云清洗系統給用戶提供一個接口來實時查看清洗的進度情況以及通過結果預覽來調整算法參數。
3 數據清洗操作
本節將簡要介紹四個數據清洗操作的功能以及基本Map-Reduce計算框架下的算法實現。
3.1 清洗操作
為了使清洗系統能夠復用共享的操作以提升清洗的效率,研究提取了數據質量問題中的四類基本的操作,分別是實體識別、不一致性檢測和修復、缺值填充和真值發現。對其概述如下
實體識別:識別元組是否代表現實世界的同一實體。
不一致性 檢測和修復:檢測違反規則集的元組,并修復數據使之符合規則。
缺值填充:根據其他完整的元組數據來填充元組的缺失屬性值。
真值發現:選擇代表同一實體的不同元組存在取值沖突時的真實取值。
這些操作涵蓋了數據質量方面的大多數問題。本文的系統可以利用如上的基本操作并根據實際需求來組合形成新的數據清洗的復雜操作。
3.2 算法實現
這些操作對應的算法可在Map-Reduce框架下獲得實現,再并行地在各個slave上運行。限于篇幅,此處僅給出其簡要介紹。
(1)實體識別。該算法有兩階段。第一階段,構建屬性索引表,使得索引表中擁有相同屬性值的數據對象對應于同一個實體。這一階段由一輪Map-Reduce實現并完成。其中的Map階段劃分主要根據屬性的取值來進行數據劃分,而Reduce階段則根據屬性取值來對元組決定其分群。第二階段,完成實體的識別,執行相似度連接查詢生成相似實體對集合。該階段由五輪Map-Reduce實現并完成。其中的第一輪分別統計每個實體及每個實體對的出現次數。第二輪和第三輪分別根據同時出現在實體對中的第一個實體和第二個進行聚集,生成相似實體對集合。稍后的第四輪和第五輪則根據閾值和計算的相似度,完成實體劃分。
(2)不一致性檢測和修復。該操作需要三輪Map-Reduce來實現并完成。第一輪實現了常量CFD的不一致性檢測和修復。Map過程是根據約束規則對元組進行劃分,并從規則中得到修復值,Reduce過程則根據得到的修復值對不一致的數據項進行相關修復。隨后的兩輪則完成FD和CFD的不一致性檢測和修復。兩者中,前一輪的Map過程依然是根據約束規則來劃分元組,此過程檢測的是變量CFD的違反,因此一個元組可能重復地劃分;而Reduce過程則針對獲得的分組以判斷組內是否發生變量違反,制定修復方案。基于前一輪Reduce的輸出,后一輪將以其作為輸入,并按照計算的解決方案對不一致的數據項進行修復。Map階段對每條元組的修復方案進行整合。Reduce階段將繼續根據整合后的修復方案對不一致的數據項進行修復。
(3)缺值填充。研究根據不同的屬性取值設計了多種不同的算法類型來實現缺值填充。對于連續變量值的缺失而言,就是利用其他的屬性取值通過回歸來實現缺值填充。此處的回歸包含三個子過程,分別是:標準化、排序和回歸,每一個操作均對應一輪的Map-Reduce。具體來說,標準化階段將所有屬性進行標準化,并計算各個屬性的最小值,構成最小值向量。排序則對所有元組的最小值向量計算相對大小并排序。回歸將完成回歸并填充缺失值。離散變量值缺失,則通過分類來實現缺值填充。分類也同樣包含三個子過程,分別是:概率計算、參數聚集和缺值填充,每個操作也都對應一輪Map-Reduce。具體地,概率計算過程需要計算每個特征屬性的條件概率和分類屬性的邊緣概率,生成概率表。參數聚集則根據概率表來聚集缺值填充需要的參數。而缺值填充主要根據聚集的參數來完成填充。
(4)真值發現。真值發現的基本框架是貝葉斯模型。該框架迭代地計算真值和數據源的相關性。每次迭代均需要兩輪的Map-Reduce。第一輪通過數據源的可靠性來計算真值,map將根據屬性與實體序號的匹配來生成屬性值與數據源的可靠性的對應,reduce階段則通過投票來確定真值。第二輪通過上一輪得到的真值來重新評估數據源的可靠性。兩輪一直迭代執行,直至收斂。
4用戶功能接口
為加強國有住房出售收入的管理,貫徹落實《北京市國有住房出售收入上交財政暫行辦法》,根據財政部財綜字(1995)36號《關于開展國有住房出售收入清查工作的通知》,現將我市國有住房出售收入清查工作的有關事項通知如下:
一、市、區縣財政部門負責市、區縣所屬企業、行政事業單位和房地產管理部門國有住房出售收入清查工作。
二、企業、行政事業單位和房地產管理部門要對以前年度出售的國有住房進行認真清查,并按規定填寫“北京市國有住房出售收入清查表(基層表)”,于9月10日前將基層表并附文字說明一式二份報送主管部門。沒有出售國有住房情況的單位報送空白表。主管部門將各基層表匯總后于9月30日前向同級財政部門報送“北京市國有住房出售收入清查表(匯總表)”,并附文字說明一份。
三、國有住房出售收入清查起止期為1989年1月1日?1995年6月31日,凡在此期間出售的國有住房均在清查之列。
四、國有住房清查的具體內容:
(一)已出售國有住房建筑面積;
(二)應收售房款(按批準的售房價格扣除各項優惠計算填寫);
(三)已收售房款,按單位實際已收到的售房款填寫;
(四)應上交財政比例,根據單位不同性質,按京財建(1995)1326號文件的有關規定填寫。
(五)應上交財政金額。
五、在國有住房出售收入清查中,各單位還應向負責清查的同級財政部門提供1993年12月31日前按標準價優惠購房職工及配偶名冊。
上海市工商行政管理局:
你局滬工商經(90)第373號請示收悉。經研究,現答復如下:
一、《中華人民共和國藥品管理法》并未排除工商行政管理機關依據其他法律、行政法規及該法第五十四條的有關規定對企業進行監督管理和行政處罰。
二、工商行政管理機關發現企業既違反了《中華人民共和國藥品管理法》,又違反了《中華人民共和國企業法人登記管理條例》的規定時,除上述法律、法規已明確授權由工商行政管理機關進行處罰的以外,應當積極與衛生行政部門進行協商,依據上述條例的規定,做出處罰或者不予處罰的決定。衛生行政部門已經做出處罰的,工商行政管理機關可不再處罰。
工商明電〔2015〕2號
各省、自治區、直轄市工商行政管理局、市場監督管理部門:
近期,一些商家、互聯網站借中秋國慶消費旺季,推銷高檔月餅、煙、酒等高價時令禮品,宣揚奢靡之風、送禮文化、集團消費,助長了享樂主義的不正之風,破壞了黨風政風,為違規購買贈送節禮、違規發放福利等現象提供了土壤。為了防止“”問題反彈,深入貫徹落實中央“八項規定”精神,引導樹立理性消費觀念,遏制社會不良風氣,現就有關事項通知如下:
一、高度重視,迅速行動。各地要進一步增強大局意識和責任意識,充分發揮市場監管職能作用,綜合運用市場監管的法律法規,采取有效措施,努力維護好節日市場秩序,同時為持續遏制享樂主義、奢靡之風提供保障。
二、依法加強廣告監測監管。要加強兩節期間等重要時間節點的廣告市場監測檢查工作,以月餅、煙酒等高價時令禮品為重點,強化廣告監測。對含有宣揚奢靡之風、送禮文化等不符合社會主義精神文明要求內容的廣告,要立即責令媒體停止,及時約談廣告主和廣告者,對情節嚴重的,要依法進行查處。
三、切實開展消費警示和教育引導。各地要充分發揮12315消費者投訴舉報網絡的作用,及時受理和依法處理“兩節”期間消費者的投訴舉報,積極調解消費糾紛,嚴厲查處侵害消費者權益的案件。要強化12315數據分析利用,依法按規定有關購物、服務、旅游等方面的提示和警示信息,增強消費者自我保護意識。要重視發揮各級消費者協會對消費的教育引導作用,運用多種形式宣傳和倡導綠色、理性、文明和科學的消費理念,正確引導消費。
四、突出對網絡交易平臺的監督管理。要以落實新消法、新廣告法以及《網絡交易管理辦法》和《網絡商品和服務集中促銷活動管理暫行規定》等法律、法規和規章為重點,切實督促網絡交易平臺經營者履行法定義務和法律責任。要加大對網絡交易平臺及平臺內經營者違法違規行為的查處力度,重點查處并曝光各類虛假宣傳、不正當有獎銷售和銷售假冒偽劣商品等違法行為,及時網絡購物消費警示。
五、認真做好兩節各類市場監管工作。繼續把關系人民群眾健康安全和違法問題易發多發的商品作為重點,加大對煙酒、家電、日用品等重點商品整治檢查強度,加強對超市、集貿市場、批發市場等重點市場的隨機抽查密度,依法嚴厲查處與人民群眾生活息息相關的生活消費品等領域擾亂市場競爭秩序、損害消費者權益的行為。
六、及時報送重大事項和信息。各級工商和市場監管部門要加強值班管理,安排足夠力量在崗值班,嚴格落實崗位職責,確保節日期間工作正常運轉。要堅持重大事項報告制度,切實做好緊急情況應對的準備工作,暢通信息通報渠道,確保一旦發生突發事件立即請示報告。重大突出問題要及時報告上級工商行政管理機關。
(1)《祖國頌》
河壺口的驚濤里聽到經久不息的激昂
在珠穆郎瑪的雪海中凝視千年不變的蒼茫
祖國啊,偉大的祖國
曾經是金戈鐵馬狼煙四起的山河
你是東方的奇葩,你是不朽的神話
穿越歷史的長河,奏響勝利的凱歌
在東方明珠的塔頂上感受傲視一切的目光
在兵馬俑的坑道里感悟歷久彌堅的遠古輝煌
祖國啊,偉大的祖國
曾經飽經滄桑戰火洗禮的山河
你是東方的巨人,你是時代的化身
三峽大壩截斷巫山云雨,神州五號一展航天壯舉
祖國啊,繁榮富強的祖國
你是世界屋脊的璀璨明珠,崛起的中國 。
(2)《我的祖國》
我深深愛戀的祖國。
你是昂首高吭的雄雞-----喚醒拂曉的沉默,
你是沖天騰飛的巨龍-----叱咤時代的風云,
你是威風凜凜的雄獅-----舞動神州的雄風,
你是人類智慧的起源-----點燃文明的星火。
你有一個神圣的名字,
那就是中國
那就是中國啊,我的祖國。
我深深愛戀的祖國。
我深深地愛著我的祖國,
搏動的心臟跳動著五千年的脈搏,
我深深地愛著我的祖國,
涌動的血液奔騰著長江黃河的浪波,
我深深地愛著我的祖國,
黃色的皮膚印著祖先留下的顏色,
我深深地愛著我的祖國!
金秋十月好心境,
舉國歡騰迎國慶。
四十九年風雨徑,
共祝未來更光明。
2、關于中秋節詩句
(1)李白:《靜夜思》
床前明月光,疑是地上霜。
舉頭望明月,低頭思故鄉。
(2)劉方平:《月夜》
更深月色半人家,北斗闌干南斗斜。
今夜偏知春氣暖,蟲聲新透綠窗紗。
(3)李商隱:《嫦娥》
云母屏風燭影深,長河漸落曉星沈。
嫦娥應悔偷靈藥,碧海青天夜夜心。
(4)(唐)李樸:《中秋》
皓魄當空寶鏡升,云間仙籟寂無聲;
平分秋色一輪滿,長伴云衢千里明;
狡兔空從弦外落,妖蟆休向眼前生;