前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)分析范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
根據(jù)規(guī)范要求,我們?cè)谶M(jìn)行實(shí)驗(yàn)分析時(shí)讀取數(shù)據(jù),只能讀到一定的準(zhǔn)確度。無論讀取到多少位數(shù),絕不可能把準(zhǔn)確度增加到超過測(cè)定方法所能允許的范圍,這個(gè)準(zhǔn)確度主要決定于所用儀器刻度的精確程度。如萬分之一的分析天平稱得的物質(zhì)的質(zhì)量,不僅表明物體的總體質(zhì)量,還表明可以稱到萬分之一克,但最后一位數(shù)不可靠。如0.5060g,實(shí)際質(zhì)量為.0.5060g±0.0001g。所以在化驗(yàn)分析結(jié)果中正確記錄分析數(shù)據(jù)的有效數(shù)字位數(shù)是很重要的。分析化驗(yàn)中使用測(cè)量?jī)x器測(cè)量的數(shù)據(jù),其有效數(shù)字位數(shù)應(yīng)和測(cè)量?jī)x器的精度相適應(yīng)。一般來講是以最小分度值的十分之一為測(cè)量?jī)x器檢測(cè)數(shù)據(jù)的有效數(shù)數(shù)字最后一位。如最小分度值為0.1mL常量滴定管,讀數(shù)時(shí)應(yīng)保留到小數(shù)點(diǎn)后第二位,最小分度值為1℃的溫度計(jì),檢測(cè)結(jié)果可保留一位小數(shù)等。在另一方面也與我們所采用的方法和測(cè)定對(duì)象有關(guān)。有明確規(guī)定,則應(yīng)按規(guī)定來確定有效數(shù)字位數(shù)。如《GB/T6536-2010石油產(chǎn)品蒸餾測(cè)定法》中就有明確規(guī)定體積讀準(zhǔn)至0.5mL,溫度讀準(zhǔn)至0.5℃,就應(yīng)按規(guī)定準(zhǔn)確記錄。所以數(shù)據(jù)讀取記錄的位數(shù),其中末位數(shù)字為可疑數(shù)字或不確定數(shù)字外(即為估讀數(shù)字),其余位數(shù)都是準(zhǔn)確的。實(shí)際操作中,常常要根據(jù)方法要求的測(cè)量精度來選測(cè)量?jī)x器。例如油料化驗(yàn)常用的恒重操作中,要求恒重至0.0002g,此時(shí)就應(yīng)在萬分之一天平進(jìn)行稱量,又如石油產(chǎn)品水分測(cè)定中要求試樣稱準(zhǔn)至0.1g,此時(shí)選擇普通托盤天平稱量即可。
2化驗(yàn)數(shù)據(jù)的正確計(jì)算
正確計(jì)算分析數(shù)據(jù),是得到正確結(jié)果的關(guān)鍵。試驗(yàn)所計(jì)算的結(jié)果不僅表明被量的大小,而且表明化驗(yàn)分析的準(zhǔn)確程度,采用過多或過少的位數(shù)都是不適當(dāng)?shù)摹R虼嗽诨?yàn)計(jì)算數(shù)據(jù)分析時(shí)要注意以下幾個(gè)問題:一是運(yùn)算中的倍數(shù)、分?jǐn)?shù)都是準(zhǔn)確數(shù)字,不適用于有效數(shù)字運(yùn)算規(guī)則。二是平均測(cè)量值的精度高于單次測(cè)量值的精度。在測(cè)量值個(gè)數(shù)不少于4時(shí),平均值有效數(shù)字位數(shù)可比單次測(cè)值多取一位。三是當(dāng)涉及到各種常數(shù)時(shí),一般視為準(zhǔn)確的,不考慮其有效數(shù)字位數(shù)。四是當(dāng)計(jì)算結(jié)果為中間過程時(shí),可比結(jié)果多保留一位有效數(shù)字。例如開口閃點(diǎn)的結(jié)果要求保留整數(shù)位,在計(jì)算大氣壓修正值或溫度計(jì)修正值時(shí)可將修正值保留一位小數(shù)。五是表示誤差時(shí)取一位有效數(shù)字,最多取兩位,有關(guān)化學(xué)平衡的計(jì)算,一般保留兩位或三位有效數(shù)字。
3化驗(yàn)結(jié)果數(shù)據(jù)有效保留位數(shù)要正確
在油料化驗(yàn)分析中,結(jié)果數(shù)據(jù)位數(shù)的保留直接影響著測(cè)定結(jié)果的準(zhǔn)確度。計(jì)算結(jié)果所保留的位數(shù)必須與油料化驗(yàn)分析的精確度一致,測(cè)定結(jié)果的數(shù)值應(yīng)當(dāng)與平行測(cè)定允許差數(shù)的保留位數(shù)相同。一般來講石油產(chǎn)品化驗(yàn)分析結(jié)果數(shù)據(jù)的保留位數(shù),檢測(cè)方法中都有明確規(guī)定。方法中沒有明確規(guī)定時(shí),檢測(cè)結(jié)果的記錄的有效位數(shù)應(yīng)該保留一位可疑數(shù)字,或根據(jù)方法精密度中的允許誤差來確定結(jié)的有效位數(shù)。關(guān)于石油產(chǎn)品分析結(jié)果保留數(shù)據(jù)可按表執(zhí)行。
4按石油產(chǎn)品試驗(yàn)方法進(jìn)行精密度驗(yàn)證提高數(shù)據(jù)的準(zhǔn)確性
在石油產(chǎn)品試驗(yàn)方法測(cè)定中,對(duì)于同一指標(biāo),有時(shí)是同一操作者測(cè)定,有是不同操作者或不同實(shí)驗(yàn)室測(cè)定,不同的測(cè)定情況精密度的要求也不一樣,通常用重復(fù)性和再現(xiàn)性來分別表示。重復(fù)性是指同一操作者在同一實(shí)驗(yàn)室,用同一臺(tái)儀器按方法規(guī)定的步驟,在連續(xù)的時(shí)間里,對(duì)同一試樣的同一性質(zhì)進(jìn)行重復(fù)測(cè)定所得結(jié)果的允許誤差。再現(xiàn)性是指不同實(shí)驗(yàn)室的不同操作者,使用同類型的儀器按方法規(guī)定的步驟,對(duì)同一試樣的同一性質(zhì)進(jìn)行測(cè)定所得結(jié)果的允許誤差。在每個(gè)石油產(chǎn)品試驗(yàn)方法中,對(duì)精密度都有明確規(guī)定,其計(jì)算基本有以下幾種類型:
4.1重復(fù)測(cè)定結(jié)果的差值不得超過某一規(guī)定值。即:第一次測(cè)定結(jié)果-第二次測(cè)定結(jié)果≤某一規(guī)定值這“某一規(guī)定值”有時(shí)是一具體數(shù)值,如GB264酸值的精密度要求;有時(shí)是較小結(jié)果的百分之幾,如GB509測(cè)定油品實(shí)際膠質(zhì)的精密度要求;有時(shí)是算術(shù)平均值的百分之幾,如GB265的精密度要求。
4.2單次測(cè)定結(jié)果與算術(shù)平均值的差數(shù),不得超過算術(shù)平均值的某一規(guī)定數(shù)值。即:?jiǎn)未螠y(cè)定結(jié)果-算術(shù)平均值≤算術(shù)平均值×所規(guī)定的百分?jǐn)?shù)如SH0079KOH溶液標(biāo)定的計(jì)算
數(shù)據(jù)分析:從挖金土豆到篩金沙
大數(shù)據(jù)之所以成為業(yè)界的熱點(diǎn),是因?yàn)楝F(xiàn)在做數(shù)據(jù)分析的價(jià)值越來越大,在Hadoop等技術(shù)的支持下,成本相對(duì)越來越低。對(duì)于企業(yè)做數(shù)據(jù)分析的價(jià)值和方法的前后變化,Informatica公司大中國(guó)區(qū)首席產(chǎn)品顧問但彬在論壇上,用一個(gè)非常生動(dòng)形象的比喻做了說明:“如果將做數(shù)據(jù)分析比喻成開采金礦,原來我們所做的是用挖掘機(jī)挖金土豆,而現(xiàn)在則是用篩子來篩金沙。因?yàn)楝F(xiàn)在大量分布在社交網(wǎng)絡(luò)的數(shù)據(jù),對(duì)企業(yè)而言就是就像是大量的金沙,分布廣泛而分散。如果能用低成本的方法篩出金沙,是非常有價(jià)值且值得做的事情。”
但彬介紹,Informatica作為一家數(shù)據(jù)集成公司,更關(guān)注的是如何把來自各個(gè)地方的大數(shù)據(jù),通過像抽水機(jī)的泵一樣的裝置整合到需要的程度和地方。Informatica2011年完成了近8億元的收入,這也是對(duì)大數(shù)據(jù)市場(chǎng)火熱程度的一個(gè)印證。
Informatica主要從四個(gè)方向考慮大數(shù)據(jù)處理的一些問題:第一,大數(shù)據(jù)的集成,即從數(shù)據(jù)種類的多樣性方面,整合所有來源的所有數(shù)據(jù)類型,不管是來自交易系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),社交網(wǎng)絡(luò)的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),還是來自RFID讀卡器的感應(yīng)數(shù)據(jù);第二,保障數(shù)據(jù)的權(quán)威、可信性,保障數(shù)據(jù)安全,實(shí)現(xiàn)可重復(fù)利用、一致的數(shù)據(jù)質(zhì)量;第三是實(shí)現(xiàn)數(shù)據(jù)的自助式服務(wù),消除手工操作帶來的錯(cuò)誤,提高生產(chǎn)率,允許分析員通過基于瀏覽器的工具直觀地定義和校驗(yàn)從源到目標(biāo)的處理流程,以此自動(dòng)生成映射邏輯,交由開發(fā)人員部署運(yùn)行;第四是自適應(yīng)服務(wù),通過多協(xié)議數(shù)據(jù)配置、集成數(shù)據(jù)質(zhì)量等手段實(shí)現(xiàn)交付適應(yīng)不同項(xiàng)目需求的數(shù)據(jù)。
從交易到交互,從互聯(lián)網(wǎng)行業(yè)到傳統(tǒng)行業(yè),大數(shù)據(jù)的滲透力和影響力不容小覷。在Teradata大中華區(qū)首席架構(gòu)師張新宇看來,除了數(shù)據(jù)管理,更重要的是數(shù)據(jù)分析,利用新的分析方法,比如通過使用Map Reduce(編程語言可以是Java/Python/Perl/C/C++)新分析框架,提供針對(duì)多種數(shù)據(jù)的并行處理能力等,實(shí)現(xiàn)大數(shù)據(jù)的洞察力是更關(guān)鍵的。
北京賽迪時(shí)代信息產(chǎn)業(yè)股份有限公司存儲(chǔ)工程服務(wù)事業(yè)部總經(jīng)理李降龍也介紹,大數(shù)據(jù)帶來的挑戰(zhàn)在于怎樣實(shí)時(shí)處理這些數(shù)據(jù),通過虛擬化搭建一個(gè)計(jì)算和存儲(chǔ)資源池,以彈性架構(gòu)有效地合理分配和使用它們,并建立合理應(yīng)用系統(tǒng),使大數(shù)據(jù)得到最好的管理和使用,才能發(fā)揮大數(shù)據(jù)的價(jià)值。論壇上民族證券CIO顏陽也分享了證券公司對(duì)于大數(shù)據(jù)的理解以及他們所做輿情分析的大數(shù)據(jù)應(yīng)用。
職場(chǎng)新貴:數(shù)據(jù)科學(xué)家
針對(duì)大數(shù)據(jù)而生的新一代分析工具――Map Reduce近年來備受關(guān)注,它一次遍歷數(shù)據(jù),連接列表順序分析,而不需要像傳統(tǒng)的SQL那樣為了排序需要對(duì)表做自關(guān)聯(lián)。Map Reduce在數(shù)字營(yíng)銷優(yōu)化、社交網(wǎng)絡(luò)及關(guān)系分析、欺詐檢測(cè)及預(yù)防、設(shè)備數(shù)據(jù)分析等場(chǎng)景中都有非常好的應(yīng)用。
除了原有的關(guān)系型數(shù)據(jù)分析,結(jié)合非關(guān)系型數(shù)據(jù)(NoSQL)的探索性分析的需求在企業(yè)內(nèi)部越來越旺盛,如此一來,一種新的IT職業(yè)――數(shù)據(jù)科學(xué)家會(huì)越來越火。
在當(dāng)前市場(chǎng)經(jīng)濟(jì)高速發(fā)展的態(tài)勢(shì)下,各企業(yè)間競(jìng)爭(zhēng)力越來越強(qiáng)。再加上信息技術(shù)的參與,企業(yè)能夠獲取信息的渠道與手段日益增多,面臨的信息也紛繁復(fù)雜,而好的決策不僅需要真實(shí)的數(shù)據(jù)支持,而且還要在盡量短的時(shí)間內(nèi)做出。所以,企業(yè)急需要高效的數(shù)據(jù)分析工具,來節(jié)省對(duì)大量數(shù)據(jù)分析的時(shí)間。本文就提出——數(shù)據(jù)倉(cāng)庫(kù)技術(shù)這一優(yōu)化的數(shù)據(jù)管理、分析技術(shù)。
2數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)
2.1面向主題
即在較高的這一層次上,實(shí)現(xiàn)對(duì)企業(yè)信息系統(tǒng)里面數(shù)據(jù)的分類、綜合處理,將其進(jìn)行抽象化處理。數(shù)據(jù)倉(cāng)庫(kù)是從企業(yè)整體上來看的,直接面向主題進(jìn)行組織,其本質(zhì)在于實(shí)現(xiàn)數(shù)據(jù)的分析與處理,為管理層提供可進(jìn)行決策的參考依據(jù)。
2.2集成性
屬于數(shù)據(jù)倉(cāng)庫(kù)全部特點(diǎn)中最為關(guān)鍵的一個(gè)環(huán)節(jié)。這是由于數(shù)據(jù)倉(cāng)庫(kù)里面的數(shù)據(jù)不是直接面向應(yīng)用的,在細(xì)節(jié)數(shù)據(jù)這一方面欠妥,僅是從原來數(shù)據(jù)抽出來之后統(tǒng)一匯入數(shù)據(jù)庫(kù),繼而發(fā)生數(shù)據(jù)缺失、同名異義等問題。
2.3不能更新
一旦當(dāng)數(shù)據(jù)裝入到數(shù)據(jù)倉(cāng)庫(kù)之后,沒有意外情況就不會(huì)再發(fā)生變化,數(shù)據(jù)主要提供給企業(yè),進(jìn)行決策的支持使用。
2.4實(shí)時(shí)變化
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不能更新只是針對(duì)應(yīng)用的,但對(duì)于數(shù)據(jù)倉(cāng)庫(kù)來說,它需要為企業(yè)的決策提供支持,因此需要數(shù)據(jù)的價(jià)值性與最新性,時(shí)間則是不可或缺的一個(gè)重要屬性。
3系統(tǒng)的目標(biāo)及功能
3.1目標(biāo)定位
基于計(jì)算機(jī)、網(wǎng)絡(luò)等技術(shù)水平的提高,企業(yè)的信息化水平也有了極大地發(fā)展。一般企業(yè)內(nèi)部都有生產(chǎn)管理系統(tǒng)、企業(yè)信息采集系統(tǒng)等的覆蓋,同時(shí)也有在此基礎(chǔ)上開發(fā)的財(cái)務(wù)報(bào)表等系統(tǒng),一般都能夠滿足各部門進(jìn)行日常管理、經(jīng)營(yíng)所提出的要求。但是,如何匯總系統(tǒng)中繁雜的數(shù)據(jù),使管理者直觀、精準(zhǔn)的掌握業(yè)務(wù)相關(guān)數(shù)據(jù),另一方面又能實(shí)現(xiàn)對(duì)數(shù)據(jù)的多角度分析,這便是基于數(shù)據(jù)倉(cāng)庫(kù)的企業(yè)數(shù)據(jù)分析、決策系統(tǒng)應(yīng)解決的根本問題。
3.2功能
以數(shù)據(jù)倉(cāng)庫(kù)作為基本,對(duì)企業(yè)數(shù)據(jù)分析(決策)支持系統(tǒng)做進(jìn)一步的優(yōu)化,本質(zhì)在于把最新的計(jì)算機(jī)技術(shù)、最高水平的信息技術(shù)成果引入其中進(jìn)行應(yīng)用,使其能夠適應(yīng)企業(yè)當(dāng)前的信息管理系統(tǒng),并使其為自己所用,形成綜合性強(qiáng)、專業(yè)化的信息分析、管理及處理平臺(tái)。
4系統(tǒng)設(shè)計(jì)
4.1整體結(jié)構(gòu)
近些年來,隨著信息管理以及IT技術(shù)的極速發(fā)展,也促成了基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析與決策支持系統(tǒng)的優(yōu)化形成。就數(shù)據(jù)倉(cāng)庫(kù)概念結(jié)構(gòu)上來說,所包含內(nèi)容像數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)、數(shù)據(jù)源、數(shù)據(jù)準(zhǔn)備區(qū)與各種應(yīng)用、管理數(shù)據(jù)。
4.2設(shè)計(jì)方法
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)建模程序:DW建模、數(shù)據(jù)獲得及集成、數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建、DSS應(yīng)用編成、測(cè)試、理解需求。較之于原型法特點(diǎn)來說,這一設(shè)計(jì)方法雖然沒有太大的差異,但是卻與其存在著根本性的不同,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)為數(shù)據(jù)驅(qū)動(dòng),基于DB開發(fā),主要對(duì)DB已有的數(shù)據(jù)資源進(jìn)行抽取、挖掘與集成,用來支持企業(yè)管理者做出正確決策。
4.3主要技術(shù)的使用
(1)數(shù)據(jù)管理。該技術(shù)中有大量的數(shù)據(jù)管理技術(shù)、監(jiān)視技術(shù)、壓縮技術(shù)以及倉(cāng)庫(kù)索引等。(2)存儲(chǔ)方面。比如說多介質(zhì)存數(shù)設(shè)備的管理技術(shù)、存儲(chǔ)控制技術(shù)以及并行存儲(chǔ)及管理技術(shù)等多個(gè)內(nèi)容。(3)倉(cāng)庫(kù)接口。語言接口技術(shù)、數(shù)據(jù)高效加載技術(shù)、多技術(shù)接口技術(shù)。
4.4設(shè)計(jì)工具
DSS的分析預(yù)測(cè)型工具、數(shù)據(jù)挖掘的挖掘型工具以及聯(lián)系分析處理的查詢分析工具,這三種工具組成了數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的工具層,每一種工具都有其不同的側(cè)重點(diǎn),所針對(duì)的用戶以及適用的范圍也都各不相同。只有將這三種工具都納入到數(shù)據(jù)庫(kù)系統(tǒng)中去,才能從真正意義上實(shí)現(xiàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中信息的利用。(1)報(bào)表。報(bào)表是一個(gè)基本性的工具,在應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)中,實(shí)現(xiàn)預(yù)定義數(shù)據(jù)計(jì)算、多維數(shù)據(jù)存儲(chǔ)的應(yīng)用,可將企業(yè)原本復(fù)雜的報(bào)表難度在一定程度上進(jìn)行簡(jiǎn)化,在提高計(jì)算速度的同時(shí)還能確保精準(zhǔn)性。(2)聯(lián)機(jī)分析。在借助多維的方式下,借助于聯(lián)機(jī)分析處理來對(duì)數(shù)據(jù)進(jìn)行分析、查詢以及報(bào)表。較之于傳統(tǒng)的聯(lián)機(jī)事務(wù)處理這一應(yīng)用,聯(lián)機(jī)事務(wù)處理這一應(yīng)用是針對(duì)用戶對(duì)其事務(wù)加以處理,比如說銀行的儲(chǔ)蓄系統(tǒng)、飛機(jī)的訂票系統(tǒng)等,這就需要實(shí)時(shí)予以更新,對(duì)響應(yīng)時(shí)間更是提出了高要求。(3)數(shù)據(jù)挖掘。該技術(shù)在諸多個(gè)領(lǐng)域的應(yīng)用都收獲了很大效益。它并不是一定非要構(gòu)建在數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上的,但如果能實(shí)現(xiàn)協(xié)同合作,便能更進(jìn)一步地對(duì)數(shù)據(jù)挖掘過程中某些步驟進(jìn)行簡(jiǎn)化,進(jìn)而提高數(shù)據(jù)挖掘的工作效率。
5結(jié)束語
數(shù)據(jù)倉(cāng)庫(kù)作為一個(gè)非易失性的數(shù)據(jù)集合,有著面向主題、集成以及實(shí)時(shí)變化的特點(diǎn),很好地滿足了企業(yè)諸多種信息的綜合使用、分享,實(shí)時(shí)且精準(zhǔn)地完成對(duì)財(cái)務(wù)分析、客戶分析以及市場(chǎng)分析等諸多方面的功能,可為企業(yè)管理層做出相應(yīng)決策提供可參考性依據(jù)。隨著企業(yè)加強(qiáng)信息化水平的建設(shè),數(shù)據(jù)化的深入發(fā)展,將會(huì)有更多的企業(yè)使用基于數(shù)據(jù)倉(cāng)庫(kù)的企業(yè)數(shù)據(jù)分析與決策系統(tǒng),為決策提供服務(wù),以此來提高自己在市場(chǎng)競(jìng)爭(zhēng)環(huán)境下有利的低位。所以,對(duì)數(shù)據(jù)分析與決策系統(tǒng)的優(yōu)化研究這一問題具有重要價(jià)值。
作者:柴旭光 單位:邢臺(tái)職業(yè)技術(shù)學(xué)院
保持中立
大數(shù)據(jù)主要包括大交易數(shù)據(jù)、大交互數(shù)據(jù)和大數(shù)據(jù)處理。數(shù)據(jù)集成的功能是收集數(shù)據(jù)、探查數(shù)據(jù)和集中管理數(shù)據(jù),從而進(jìn)一步提高數(shù)據(jù)的質(zhì)量。Informatica的數(shù)據(jù)集成軟件可以辨別哪些數(shù)據(jù)是合規(guī)的,并提取出來,實(shí)施統(tǒng)一管理和統(tǒng)一復(fù)制。Informatica公司高級(jí)副總裁兼首席信息官托尼·楊(Tony Young)表示,針對(duì)Hadoop大數(shù)據(jù)處理平臺(tái),Informatica的數(shù)據(jù)集成軟件主要負(fù)責(zé)做好以下幾件事:解析和準(zhǔn)備數(shù)據(jù),探查和發(fā)現(xiàn)數(shù)據(jù),轉(zhuǎn)換和清洗數(shù)據(jù),監(jiān)控Hadoop平臺(tái)中的數(shù)據(jù)。隨著云計(jì)算應(yīng)用的逐漸普及,數(shù)據(jù)碎片日益增加,而移動(dòng)計(jì)算、社交計(jì)算的快速發(fā)展也增加了數(shù)據(jù)訪問和管理的復(fù)雜性。在這種情況下,保證數(shù)據(jù)的合規(guī)性、一致性和準(zhǔn)確性就顯得尤為重要。數(shù)據(jù)集成不僅可以輕松實(shí)現(xiàn)上述目標(biāo),而且可以在數(shù)據(jù)整個(gè)生命周期的管理中起到監(jiān)督和調(diào)整的作用。
在數(shù)據(jù)管理產(chǎn)品趨向融合的今天,數(shù)據(jù)集成軟件會(huì)不會(huì)也被集成到一些綜合性的管理解決方案中呢?
托尼·楊表示:“Informatica之所以能夠保持快速成長(zhǎng),一個(gè)關(guān)鍵的因素就是始終保持中立的地位。我們的數(shù)據(jù)集成軟件可以與其他所有應(yīng)用和管理軟件平臺(tái)相集成,比如微軟、SAP等廠商的產(chǎn)品。”
大數(shù)據(jù)促進(jìn)業(yè)務(wù)增長(zhǎng)
“數(shù)據(jù)分析是今后企業(yè)在競(jìng)爭(zhēng)中保持優(yōu)勢(shì)的一個(gè)主要手段。如果你現(xiàn)在不認(rèn)真對(duì)待大數(shù)據(jù),那么競(jìng)爭(zhēng)對(duì)手就有可能超過你,并取代你。”托尼·楊表示,“大數(shù)據(jù)與SOA(面向服務(wù)的體系結(jié)構(gòu))不同。SOA不能直接給企業(yè)帶來商業(yè)價(jià)值,而大數(shù)據(jù)與企業(yè)的業(yè)務(wù)績(jī)效直接相關(guān)。企業(yè)的CIO必須重視大數(shù)據(jù)的處理與應(yīng)用。”
托尼·楊介紹了一個(gè)利用Informatica數(shù)據(jù)集成解決方案促進(jìn)企業(yè)銷售的成功案例。由于銷售額急劇下降,美國(guó)一家化妝品零售商求助于Informatica。Informatica利用其數(shù)據(jù)集成解決方案,創(chuàng)建了數(shù)據(jù)的單一視圖,將來自銷售柜臺(tái)的客戶信息以及社交網(wǎng)絡(luò)上的客戶需求進(jìn)行匹配、集成和處理。該化妝品零售商利用Informatica提供的數(shù)據(jù)分析結(jié)果,調(diào)整了銷售方式,使得化妝品的銷售額得到了大幅提升。托尼·楊表示:“大數(shù)據(jù)分析不僅可以應(yīng)用于消費(fèi)品市場(chǎng),交通、氣象、金融等很多行業(yè)也可以應(yīng)用大數(shù)據(jù)分析工具促進(jìn)業(yè)務(wù)的增長(zhǎng)或提升服務(wù)質(zhì)量。”
[關(guān)鍵詞] 計(jì)算機(jī)審計(jì);數(shù)據(jù)挖掘;聚類算法;噪聲數(shù)據(jù)
隨著經(jīng)濟(jì)和信息技術(shù)的不斷發(fā)展,許多企業(yè)開始引入了erp等系統(tǒng),這些系統(tǒng)使得企業(yè)的眾多活動(dòng)數(shù)據(jù)可以實(shí)時(shí)記錄,形成了大量有關(guān)企業(yè)經(jīng)營(yíng)管理的數(shù)據(jù)倉(cāng)庫(kù)。從這些海量數(shù)據(jù)中獲取有用的審計(jì)數(shù)據(jù)是目前計(jì)算機(jī)審計(jì)的一個(gè)應(yīng)用。對(duì)于審計(jì)人員來說,如何從被審計(jì)單位的海量數(shù)據(jù)中找出全面、高質(zhì)量的審計(jì)數(shù)據(jù)從而找出審計(jì)證據(jù)是一個(gè)難題。本文利用數(shù)據(jù)挖掘技術(shù)對(duì)此問題進(jìn)行了探討并提出了解決的方法。
數(shù)據(jù)挖掘(data mining)指的是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取出隱藏的、不為人知的卻潛在有用的信息和知識(shí)的過程[1]。事實(shí)上,實(shí)際應(yīng)用數(shù)據(jù)的質(zhì)量和存儲(chǔ)模式對(duì)于實(shí)施計(jì)算機(jī)審計(jì)并成功獲取審計(jì)證據(jù)非常重要。由于被審單位信息系統(tǒng)軟硬件平臺(tái)的異構(gòu)性和可能存在的人為故意隱瞞、造假等,為保證計(jì)算機(jī)審計(jì)工作順利進(jìn)行和審計(jì)結(jié)論的正確,對(duì)審計(jì)數(shù)據(jù)進(jìn)行采集時(shí)必須對(duì)數(shù)據(jù)進(jìn)行檢查、控制和分析。
1審計(jì)數(shù)據(jù)采集
審計(jì)數(shù)據(jù)采集指在開展計(jì)算機(jī)審計(jì)時(shí)從被審計(jì)單位的財(cái)務(wù)及業(yè)務(wù)信息系統(tǒng)及其他數(shù)據(jù)源獲得審計(jì)所需的電子數(shù)據(jù)并進(jìn)行適當(dāng)?shù)母袷睫D(zhuǎn)換[3]。一般來說,計(jì)算機(jī)審計(jì)中數(shù)據(jù)采集的方法主要包括以下幾種:
(1)利用被審單位信息系統(tǒng)的數(shù)據(jù)導(dǎo)出功能。大多數(shù)的信息管理系統(tǒng)都提供了數(shù)據(jù)導(dǎo)出的功能,審計(jì)人員直接可以利用該功能導(dǎo)出企業(yè)財(cái)務(wù)數(shù)據(jù)完成數(shù)據(jù)的采集。
(2)利用通用的數(shù)據(jù)處理軟件完成數(shù)據(jù)采集。如access、sql server等都具有較強(qiáng)大的數(shù)據(jù)導(dǎo)入導(dǎo)出功能和數(shù)據(jù)轉(zhuǎn)換功能。審計(jì)人員可以利用這些軟件完成數(shù)據(jù)的采集。如被審企業(yè)原始數(shù)據(jù)為文本格式可以轉(zhuǎn)換為數(shù)據(jù)庫(kù)表格格式。
(3)利用審計(jì)軟件完成數(shù)據(jù)采集。如國(guó)家從2002年開始建設(shè)的“金審工程”就以現(xiàn)場(chǎng)審計(jì)實(shí)施系統(tǒng)(ao)及審計(jì)辦公系統(tǒng)(oa)作為計(jì)算機(jī)輔助審計(jì)的工具。別外應(yīng)用國(guó)內(nèi)的企業(yè)財(cái)務(wù)審計(jì)軟件、審計(jì)數(shù)據(jù)采集分析軟件等都可以完成審計(jì)數(shù)據(jù)的采集。
(4)利用專用程序接口完成數(shù)據(jù)采集。當(dāng)被審計(jì)單位提供的審計(jì)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)與已有的審計(jì)數(shù)據(jù)處理軟件系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)差異較大時(shí),可以在審計(jì)人員的協(xié)助下由專門的程序員開發(fā)接口程序,完成數(shù)據(jù)的采集,但成本相對(duì)較高。
2 數(shù)據(jù)清洗
利用數(shù)據(jù)挖掘?qū)徲?jì)數(shù)據(jù)進(jìn)行處理分類時(shí),為了提高分類的準(zhǔn)確性、高效性和可伸縮性,必須對(duì)數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理,包括:數(shù)據(jù)的清洗、相關(guān)性分析、數(shù)據(jù)轉(zhuǎn)換等。
文獻(xiàn)[4]中給出數(shù)據(jù)清洗的定義為:發(fā)現(xiàn)和消除數(shù)據(jù)中的錯(cuò)誤和不一致來提高數(shù)據(jù)的質(zhì)量。一般而言,審計(jì)數(shù)據(jù)庫(kù)中數(shù)據(jù)采集于異質(zhì)操作數(shù)據(jù)庫(kù),不可避免存在著數(shù)據(jù)的錯(cuò)誤或不一致等問題,如數(shù)據(jù)造假、數(shù)據(jù)重復(fù)、數(shù)據(jù)缺失等錯(cuò)誤。根據(jù)文獻(xiàn)[5]提出的審計(jì)數(shù)據(jù)質(zhì)量特征,必須要對(duì)采集的原始數(shù)據(jù)進(jìn)行清洗,即由“臟”變“干凈”,提高審計(jì)數(shù)據(jù)質(zhì)量,這是保證審計(jì)結(jié)論正確的關(guān)鍵。
數(shù)據(jù)清洗的一般過程如圖2所示。
(1)數(shù)據(jù)分析:為了清洗出干凈的數(shù)據(jù),必須對(duì)數(shù)據(jù)進(jìn)行詳盡的分析,包括數(shù)據(jù)的格式類別等。比如采集來的財(cái)務(wù)數(shù)據(jù)的字段類型、寬度、含義等。
(2)模式轉(zhuǎn)換:模式轉(zhuǎn)換主要是指將源數(shù)據(jù)映射成目標(biāo)數(shù)據(jù)模型,如屬性的轉(zhuǎn)換,字段的約束條件和數(shù)據(jù)庫(kù)中各個(gè)數(shù)據(jù)集之間的映射和轉(zhuǎn)換等。有時(shí)需要將多個(gè)數(shù)據(jù)表合并成一個(gè)二維表格,有時(shí)卻要將一個(gè)數(shù)據(jù)表拆分成多個(gè)二維表格以便于問題的解決。
(3)數(shù)據(jù)校驗(yàn):上一步的模式轉(zhuǎn)換可行否,需要進(jìn)行評(píng)估測(cè)試,經(jīng)過反復(fù)分析、設(shè)計(jì)、計(jì)算、分析才能更好地清洗數(shù)據(jù)。否則不經(jīng)過數(shù)據(jù)校驗(yàn)可能有些錯(cuò)誤數(shù)據(jù)不是很明顯,不能被很好地篩選出來。比如模式轉(zhuǎn)換時(shí)將一個(gè)數(shù)據(jù)集分解成多個(gè)數(shù)據(jù)表的時(shí)候,造成父表的主關(guān)鍵字的值和子表外部關(guān)鍵字的值不一致,從而形成孤立記錄,影響審計(jì)人員審計(jì)證據(jù)的正確性,進(jìn)而影響審計(jì)結(jié)論的正確性。
(4)數(shù)據(jù)回流:用“干凈”的數(shù)據(jù)替代原始數(shù)據(jù)源中的“臟”數(shù)據(jù),避免下次數(shù)據(jù)采集時(shí)重做數(shù)據(jù)的清洗。
有時(shí)候數(shù)據(jù)的清洗需要反復(fù)進(jìn)行,審計(jì)人員需要對(duì)采集到的電子數(shù)據(jù)進(jìn)行多次清洗,這樣才能得到高質(zhì)量的審計(jì)數(shù)據(jù)。
3 數(shù)據(jù)挖掘?qū)崿F(xiàn)
經(jīng)過數(shù)據(jù)預(yù)處理后的審計(jì)數(shù)據(jù)庫(kù)包含了多個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集又包含了若干數(shù)據(jù)記錄或者稱為元組,如何從這些二維表格數(shù)據(jù)中挖掘出有意義的審計(jì)數(shù)據(jù)至關(guān)重要。本文介紹一種利用聚類算法進(jìn)行審計(jì)數(shù)據(jù)挖掘的算法。
3.1 算法概述
3.1.1聚類算法
所謂聚類就是根據(jù)相似性對(duì)數(shù)據(jù)對(duì)象進(jìn)行分組,發(fā)現(xiàn)數(shù)據(jù)的分布特征,使得每個(gè)聚類中數(shù)據(jù)有非常高的相似性而不同聚類中的數(shù)據(jù)盡可能不同[6]。它同分類的主要區(qū)別在于,分類事先知道所依據(jù)的數(shù)據(jù)特征,而聚類是要找到這個(gè)數(shù)據(jù)特征。作為數(shù)據(jù)挖掘的功能,聚類分析可以作為一個(gè)獲取數(shù)據(jù)分布情況、觀察每個(gè)類的特征和對(duì)特定類進(jìn)行進(jìn)一步獨(dú)立分析的工具;聚類也能夠有效處理噪聲數(shù)據(jù),比如數(shù)據(jù)庫(kù)中普遍包含的孤立點(diǎn)、空缺或錯(cuò)誤數(shù)據(jù)等。
聚類分析算法通常有5類[7]:①基于劃分的方法,如clarans;②基于層次的方法,如cure和birch;③基于密度的方法,如dbscan、optics、gdbscan和dbrs;④基于網(wǎng)格的方法,如sting和wavecluster;⑤基于模型的方法,如cobweb。其中dbscan算法具有很好的過濾噪聲數(shù)據(jù)的優(yōu)點(diǎn)。本文探討利用dbscan算法對(duì)審計(jì)數(shù)據(jù)進(jìn)行處理,找出異常數(shù)據(jù),查找出審計(jì)證據(jù)。
3.1.2 dbscan算法
dbscan算法的基本思想為[8]:對(duì)于同一個(gè)聚類中的每個(gè)對(duì)象,在給定的半徑d的鄰域中包含的對(duì)象不能少于某一個(gè)給定的最小數(shù)目minpts(也稱密度)。
為了生存一個(gè)聚類,dbscan算法首先從數(shù)據(jù)集db中選擇任意一個(gè)對(duì)象p,并查找數(shù)據(jù)集db中關(guān)于半徑d的所有鄰域?qū)ο螅绻@個(gè)鄰域?qū)ο蟮膫€(gè)數(shù)小于最小數(shù)目minpts,則p為噪聲數(shù)據(jù);否則p的鄰域?qū)ο笮纬梢粋€(gè)初始聚類n,n中包含對(duì)象p及p直接密度可達(dá)的所有對(duì)象。然后確定該類中的每一個(gè)對(duì)象q是否為核心對(duì)象,若是,就將q的d—鄰域內(nèi)尚未包含到n的所有對(duì)象追加到n中,并繼續(xù)判定新追加的對(duì)象是否為核心對(duì)象,如果是,重復(fù)上述追加過程,直到這個(gè)聚類不能再擴(kuò)大為止。然后dbscan算法再在數(shù)據(jù)集db中另選一個(gè)沒有被標(biāo)識(shí)為某個(gè)聚類或者噪聲的對(duì)象,重復(fù)上面的操作,一直到數(shù)據(jù)集db中的所有對(duì)象要么被標(biāo)識(shí)為某個(gè)聚類、要么被標(biāo)識(shí)為噪聲數(shù)據(jù)為止。
dbscan算法進(jìn)行聚類的過程就是不斷執(zhí)行數(shù)據(jù)集查詢比較的過程,最后產(chǎn)生的噪聲數(shù)據(jù)就是通常所說的異常數(shù)據(jù),對(duì)于幫助審計(jì)人員進(jìn)行審計(jì)判斷非常有效。圖3表示了二維平面坐標(biāo)下的噪聲數(shù)據(jù)和若干聚類。
3.2數(shù)據(jù)模式定義
3.2.1項(xiàng)間的距離
設(shè)ri和rj是數(shù)據(jù)集db中的任意兩條記錄即某兩個(gè)數(shù)據(jù)項(xiàng),它們之間的距離定義為:
式中,ri(rix,riy),rj(rjx,rjy)表示數(shù)據(jù)集中兩個(gè)項(xiàng)ri和rj在二維空間的坐標(biāo)點(diǎn),因此dij表示ri和rj在二維空間坐標(biāo)的距離。如果dij大于給定的值d,則表示ri和rj不屬于同一個(gè)聚類分組。
3.2.2審計(jì)數(shù)據(jù)預(yù)處理
數(shù)據(jù)挖掘時(shí)數(shù)據(jù)的選擇是在二維平面上進(jìn)行的,首先選擇列(字段或?qū)傩裕龠x擇行(記錄或元組)。為了能夠獲得有效的審計(jì)證據(jù)得出正確的審計(jì)結(jié)論,有時(shí)候必須對(duì)源數(shù)據(jù)集進(jìn)行數(shù)據(jù)轉(zhuǎn)換。
因?yàn)楦鱾€(gè)企事業(yè)單位的規(guī)模不同,財(cái)務(wù)數(shù)據(jù)的數(shù)量級(jí)或者數(shù)量單位可能不同,為了得到更加科學(xué)可靠的聚類分析結(jié)果,需要對(duì)財(cái)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,一般進(jìn)行比例變換。如將x軸定義為某公司某月營(yíng)業(yè)收入與利潤(rùn)總額的比值,將y軸定義為財(cái)務(wù)費(fèi)用與凈利潤(rùn)的比值,這樣處理的數(shù)據(jù)能更好地反映該企業(yè)的實(shí)際情況。這里的財(cái)務(wù)數(shù)據(jù)預(yù)處理都是由用戶來定義的,可以根據(jù)不同的審計(jì)要求和審計(jì)目的來定義。
建立一個(gè)新的二維表格數(shù)據(jù)至少包含4個(gè)屬性項(xiàng):記錄號(hào),x軸數(shù)據(jù),y軸數(shù)據(jù),標(biāo)記。其中記錄號(hào)保持對(duì)應(yīng)源數(shù)據(jù)集db中的記錄號(hào), x坐標(biāo)和y坐標(biāo)即為經(jīng)過比例變換后的數(shù)值,標(biāo)記字段初始內(nèi)容為空。
3.3算法描述及流程圖
給定一個(gè)計(jì)算機(jī)審計(jì)數(shù)據(jù)集,假設(shè)具有n個(gè)元組或者記錄,利用dbscan算法思想構(gòu)造出l個(gè)分組(l<n),每個(gè)分組代表一個(gè)聚類。且l個(gè)分組必須滿足如下條件:
(1)每個(gè)分組至少包含minpts個(gè)元組。
(2)每個(gè)分組中的任意兩個(gè)元組直接的距離小于等于給定的距離d。
(3)每個(gè)元組僅屬于一個(gè)分組。
圖4為實(shí)現(xiàn)審計(jì)數(shù)據(jù)挖掘的算法(稱為audbscan)的流程圖。
3.4 聚類算法的實(shí)現(xiàn)
算法:審計(jì)數(shù)據(jù)挖掘聚類算法(audbscan)
輸入:根據(jù)數(shù)據(jù)集db產(chǎn)生的二維表格數(shù)據(jù)
//至少含有4個(gè)字段:rec 記錄號(hào),rx x坐標(biāo)數(shù)據(jù),ry y坐標(biāo)數(shù)據(jù),rno 標(biāo)記
半徑d //度量密度的距離
密度minpts //簇中的數(shù)目
輸出:噪聲數(shù)據(jù)記錄
algorithm audbscan(data,d,minpts)
for each record in data do
ifeach reccord in data is marked
output noise reccord //輸出標(biāo)識(shí)為噪聲的數(shù)據(jù)
else
for each reccord in data is not marked noise or classer do
prand(a reccord is not marked noise or classer) //隨機(jī)選取沒有被標(biāo)記的記錄p
lfound(p,d,minpts) //找到p關(guān)于d的minpts密度可達(dá)記錄
if s=recount(l)<minpts
p is marked noise
else
nfound(p,d,minpts)
each reccord in n is marked classer
for each reccord in n do
qone reccord
if q is a center record //q為核心記錄
nfound(q,d)
endif
endfor
endif
endfor
endif
endfor
在audbscan算法中,利用rand()函數(shù)產(chǎn)生第一個(gè)隨機(jī)記錄p,利用found()函數(shù)產(chǎn)生p關(guān)于d的minpts密度可達(dá)記錄。該算法最后的結(jié)果和隨機(jī)產(chǎn)生的第一條記錄相關(guān),形成的聚類可能有不同,但得到的噪聲數(shù)據(jù)一致,因此對(duì)于審計(jì)證據(jù)的查找是有效的。
4 結(jié)論
數(shù)據(jù)挖掘技術(shù)與海量數(shù)據(jù)下審計(jì)業(yè)務(wù)的有效結(jié)合是未來計(jì)算機(jī)審計(jì)的一個(gè)發(fā)展方向。本文主要介紹了審計(jì)數(shù)據(jù)的采集、數(shù)據(jù)的處理轉(zhuǎn)換和數(shù)據(jù)的挖掘3個(gè)方面,并且在數(shù)據(jù)的挖掘方面采用了基于聚類的dbscan算法來快速、準(zhǔn)確、高效地輸出噪聲數(shù)據(jù)。該算法中涉及的二維平面x,y軸坐標(biāo)可以根據(jù)實(shí)際審計(jì)需要由審計(jì)人員加以定義,因此可以應(yīng)用到各類審計(jì)實(shí)踐中去。另外,可以將dbscan算法擴(kuò)展到三維空間上,只要再加上一個(gè)z軸數(shù)據(jù),當(dāng)然z軸數(shù)據(jù)也應(yīng)該是和x,y軸數(shù)據(jù)相關(guān)的一個(gè)比例數(shù)據(jù),此時(shí)聚類的結(jié)果將會(huì)變成一個(gè)不規(guī)則球體,從而能夠更加容易挖掘出未曾發(fā)現(xiàn)的知識(shí),也更加容易發(fā)現(xiàn)數(shù)據(jù)間的潛在聯(lián)系。
主要參考文獻(xiàn)
[1][加]jiawei h,michelline k.?dāng)?shù)據(jù)挖掘概念與技術(shù)[m].范明,譯. 北京:機(jī)械工業(yè)出版社,2004.
[2]陳偉,張金城,robin qiu.審計(jì)數(shù)據(jù)處理實(shí)驗(yàn)中的模擬數(shù)據(jù)生成系統(tǒng)[j].計(jì)算機(jī)工程,2007(19).
[3]王琦峰,胡玲玲. 基于ao的審計(jì)數(shù)據(jù)采集方法 [j].計(jì)算機(jī)系統(tǒng)應(yīng)用,2009(3).
[4]米天勝,張金城. 面向數(shù)據(jù)的計(jì)算機(jī)審計(jì)中數(shù)據(jù)質(zhì)量問題的探討[j].審計(jì)與經(jīng)濟(jì)研究,2006(1).
[5]王昊,朱文明. 審計(jì)數(shù)據(jù)質(zhì)量研究:從審計(jì)取證的視角 [j].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2007(1).
[6]楊磊,李建軍,張志軍,孫翠娟.談數(shù)據(jù)挖掘中常用的聚類算法[j].中國(guó)成人教育,2008(4).
[7]胡彩平,秦小麟.一種改進(jìn)的空間聚類算法 [j].模式識(shí)別與人工智能,2007(3).
[8][美]margaret h dunham. 數(shù)據(jù)挖掘教程 [m].郭崇慧,譯.北京:清華大學(xué)出版社,2005.
數(shù)據(jù)報(bào)告 數(shù)據(jù)采集論文 數(shù)據(jù)安全論文 數(shù)據(jù)采集 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)安全 數(shù)據(jù)統(tǒng)計(jì)論文 數(shù)據(jù)挖掘 數(shù)據(jù)理論論文 數(shù)據(jù)通信論文 紀(jì)律教育問題 新時(shí)代教育價(jià)值觀