首頁 > 文章中心 > 正文

      地質專業檔案領域知識圖譜應用

      前言:本站為你精心整理了地質專業檔案領域知識圖譜應用范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

      地質專業檔案領域知識圖譜應用

      摘要:本文把自然語言處理、知識圖譜等智能化技術和地質專業檔案信息服務工作相結合,研究了地質專業檔案領域知識圖譜的構建方法和技術,并根據地質專業檔案服務的特點,建立了地質專業檔案領域知識圖譜,實現了面向地質專業人員的地質檔案智能化檢索服務,并進行了實際的應用系統開發,提升了專業檔案館的專業化服務程度和效率。

      關鍵詞:地質檔案;領域知識圖譜;智能檢索

      地質檔案的借閱利用以地勘單位的專業人員為主,他們查找相關資料基本上都是為了地勘項目或研究工作。傳統的資料檢索方式基本上都是根據有限的條件來檢索地質檔案,這種方法只能大概檢索到檔案而不能找到深度的相關資料,更不能從其中發現知識。如果想要得到更加深入的專業信息需要詳細閱讀和提煉案卷內容,這會給借閱者帶來很大的時間成本。此外長時間占用館藏機構服務資源,館藏機構服務效率無法提高?;谏鲜銮闆r,本文以智能化技術提升檔案信息服務水平和效率為目標,探索自然語言處理、知識圖譜等智能化技術和地質專業檔案管理和服務工作的結合,從新的角度組織地質檔案數據,研究地質專業檔案領域知識圖譜的構建方法和技術,建立了面向借閱服務的地質專業領域知識圖譜,實現了地質檔案智能化檢索服務。

      1地質檔案智能化服務的技術基礎

      1.1 自然語言處理

      地質檔案的專業知識隱含在專業的文字報告中,要想挖掘其中的知識必然離不開自然語言處理技術(Natural Language Processing,NLP)。自然語言處理技術實現人機間自然語言通信,意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。地質專業檔案來自日常匯交和歷史檔案的數字化掃描,在地質專業檔案管理和信息服務的不同階段,自然語言處理技術都不可或缺。根據處理對象的粒度不同,自然語言處理在地質專業檔案智能化服務中可以滲透在詞法分析、句法分析、語義分析及篇章分析的不同層次。

      1.2 地質領域知識圖譜

      領域知識圖譜(Knowledge Graph,KG)又叫作特定行業知識圖譜或者垂直領域知識圖譜,指根據對某個行業或細分領域的深入研究而定制的版本,主要解決當前行業或細分領域的專業問題,如軍事、公安、交通、醫療等特定領域,用于復雜的應用分析或輔助決策,具有專家參與度高、知識結構復雜、知識質量要求高、知識粒度細等特點。典型的領域知識圖譜包括IBM Watson Health醫療知識圖譜、海致星圖金融知識圖譜等。本文的地質檔案知識圖譜就屬于此類,領域知識圖譜中知識圖譜節點和關系類型有限,對準確性和圖譜的質量要求較高。地質領域知識圖譜最大的問題是構建圖譜所需的專業語言材料一般都比較缺乏,需要地質領域專家進行人工干預。

      2地質專業檔案知識圖譜模式設計

      地質專業領域知識圖譜在邏輯結構上可分為數據層和模式層。數據層包含大量的事實信息,即實體、關系、實體或者實體、屬性、屬性值等三元組表示形式,將這些數據存儲在圖數據庫中構成大規模的實體關系網絡,進而形成知識圖譜。模式層建立在數據層之上,是知識圖譜的核心,通常使用本體庫對公理、規則和約束條件的支持能力來規范實體、關系以及實體的類型和屬性等。本文中,地質專業檔案知識圖譜的模式框架由地質專業案卷類和地學專業知識本體聯合而成,概念類型如下:(1)案卷類及關系定義:類之間存在相互的關系,類之間可以定義單向的關系,也可以定義雙向的關系。(2)案卷類屬性定義:與類相關的屬性,如案卷類的題名、形成單位、資料類別等。(3)地學專業知識類定義:定義多個地學專業領域便于將類進行分組管理。如地質勘探域之下有工程勘探、地質評價、坑道鉆探等類,基礎地質之下有地層、地質構造、地質演變等類。

      2.1 利用地質檔案元數據對知識圖譜模式進行初步描述

      地質檔案元數據可作為知識圖譜模式的第一描述來源。但為了知識圖譜的通用性,需要所有的關聯機構采取相同的元數據規范。國土資源部于2001年制訂了《地質資料檔案著錄細則》,對地質檔案元數據進行了統一規范,其中對地質資料檔案著錄項目及其用文規范做了詳細約定,這給地質案卷類的創建提供了重要依據。本文根據地質檔案著錄規范中的元數據信息,把地質檔案抽象為案卷、案卷屬性、案卷屬性類三個頂級類,構成案卷的基本抽象模式。再加上后面將要提到的地學專業知識類,就構成了地質檔案知識圖譜模式的基本概念,如表1。

      2.2 利用地學專業知識本體對知識圖譜模式進一步補充

      元數據只解決了知識圖譜中的案卷信息規范問題,未解決知識圖譜模式中的知識承載框架問題。地質檔案知識圖譜由案卷和地質專業知識兩個層面組成,專業知識本體可以彌補元數據在專業知識信息描述方面的不足,豐富地質檔案資源的知識信息表達。本文采取建立地質專業知識本體的方式來解決知識圖譜中知識承載的問題。在地礦領域,吳永亮等[1]通過對地質數據的概念、屬性、關系、規則及相應實例的詳細表達,構建了礦產資源預測部分的地質數據本體。劉秀磊等[2]則針對煤礦典型動力災害領域提出了一種本體構建方法,并采用Jena工具實現了本體的形式化。侯志偉等[3]根據地質年代時間屬性及其特征和地層劃分與對比、古生物、構造地質、地球化學,并根據性質和關系,產生一系列OWL或資源描述框架RDF文件。以《中國地層表》和《國際年代地層表》作為地質年代本體的重要術語為來源,建立了地質年代本。本文中,采用自上向下法對地質專業相關概念進行劃分,以地質勘探主題為核心擴展到其他地學領域,在一定程度上建立了跨學科的地學本體,以盡量覆蓋地質檔案知識。具體通過地質領域專家整理相關概念和關系,利用本體建模軟件protégé構建基于OWL文件格式的本體模型[4]。概念的頂層框架分為基礎地理、基礎地質、地球物理、地球化學、礦產地質、環境地質、工程地質、水文地質、海洋地質、地質勘探、巖石學、測繪學、地質資料等,然后逐級細分,最終形成地質專業檔案知識體系本體框架。概念之間的關聯用關系描述,是地質知識組織、分析、推理、關聯檢索的基本依據。主要的關系定義如下:(1)上下位關系,描述概念之間的層級關系,包括從屬關系(即部分與整體的關系)、繼承關系(父類與子類的關系),如“基礎地質”與“地層”。(2)等同關系,描述同級地質概念或實例之間的等價關系。同一概念的不同命名,如“槽探”與“探槽”等。 (3)交叉關系,有且只有部分內涵相同的兩個概念之間的關系稱為交叉關系,如“破碎帶蝕變巖型金銀礦”與“蝕變破碎巖型鉛鋅銀礦”。 (4)實例關系,用來描述概念與相應實例之間的關系,如“金屬礦產”與實例“鐵礦”。

      2.3 地質檔案知識圖譜數據模型與存儲機制

      地質檔案模型和地學專業知識本體融合后形成知識圖譜模式。知識圖譜存儲指專門為知識圖譜而設計的底層存儲管理方案,目前主流的知識圖譜數據模型有RDF圖模型和屬性圖模型。RDF(Resource Description Framework,資源描述框架)使用Web標識符來標識資源,使用屬性和屬性值來描述資源,是一種特殊的有向標簽圖,即邊亦可作為頂點,頂點與邊交集非空。與RDF圖模型相比,屬性圖模型對于頂點屬性和邊屬性具備內置的支持。目前,屬性圖模型被著名的圖數據庫Neo4j所采用,也是本文采用的方案。Neo4j圖數據庫遵循屬性圖模型來存儲和管理數據,將結構化數據存儲在網絡而不是表中,具有“無索引鄰接”特性。每個頂點維護著指向其鄰接頂點的直接引用,用其查找鄰接頂點比使用“全局索引”節省大量時間。這就意味著圖導航操作代價與圖大小無關,僅與圖的遍歷范圍成正比。在具體實現中,Neo4j將邊放到核心位置,并將屬性圖中的頂點、邊、標簽和屬性分開存儲在不同文件中。這種將圖結構與圖上標簽和屬性分開存儲的策略,使其具有高效率的圖遍歷能力,如圖3所示。

      3地質檔案知識圖譜構建技術流程

      根據地質檔案館數字資源的建設現狀,地質檔案知識圖譜的建設主要包括地學專業知識本體構建、結構化和非結構化信息抽取、圖譜節點創建和應用開發幾個方面。地學專業知識本體的構建采用地質勘探領域專業人員整理各專業的相關概念和關系,然后本體建模。在信息抽取環節對OWL文件格式進行二次開發,轉換成知識節點。同時,把知識詞匯補充到自然語言分詞處理的詞典中,供后續對非結構化文本的分詞處理使用。非結構化的信息來源主要是地質檔案圖文數據庫中的正文、附圖、附表等內容。結構化數據主要是地質檔案元數據庫中的案卷和文件信息,利用這些信息生成地質檔案節點。地學專業知識節點和地質檔案節點進行融合關聯形成完整的知識圖譜。其中,在融合關聯的時候可以采用簡單的知識詞匯直接關聯的方式進行,也可以進行命名實體和關系抽取后關聯。知識圖譜生成后,需要面向問題開發智能檢索的API,因為地質專業檔案涉及地質、礦產、地球物理等很多專業,通用的智能檢索實現起來難度大、周期長。分專題把熱門需求或者專業人員日常提問較多的問題進行開發,提供智能化的檢索接口。

      4地質檔案知識圖譜應用

      知識圖譜按照應用方式可以分為語義搜索、知識問答、推薦系統,以及基于知識的大數據分析與決策等。知識圖譜的應用主要通過知識推理來實現。知識圖譜推理可以形式化定義為:給定一個知識圖譜KG=<E,R,T>和關系路徑P,E和T表示實體集合,R表示關系集合,R中的邊連接兩個節點來形成一個關系三元組(h,r,t)∈T,由此產生一個KG中不存在的三元組G'={(h,r,t)|h∈E,r∈R,t∈T,(h,r,t)∉G}。知識圖譜推理的目標是基于已有的知識,使用自動化方法推理得到潛在的實體之間的關系。比如已知(金,屬于,貴金屬礦產)和(貴金屬礦產,屬于,金屬礦產)可以推出(金,屬于,金屬礦產)。知識推理的對象不僅包括實體之間的關系和屬性名稱,還包括實體的屬性值和本體的概念層次。如,已知一個案卷的檔號,就可以知曉該案卷的題名、編著者、資料類別等。本文基于地質檔案知識圖譜,實現了面向部分地質專業檢索需求的語義檢索。語義檢索是知識圖譜最典型的應用,它首先將用戶輸入的問句或條件進行解析,然后以有向圖的方式提供滿足用戶需求的結構化語義內容,最后通過一定的形式將結果呈現到用戶面前。通過對實際地質專業借閱用戶分析,用戶所需要關注的問題都是跟后續將要開展的工作緊密相關的問題。地質勘探手段、方法、實驗方法和工作方法以及取得的已有成果是用戶關注的重要內容,表2是本文中梳理的專業問題和重要知識詞匯樣例。本文在原有地質資料目錄數據庫和圖文數據庫的基礎上建立了基于圖數據庫的語義檢索服務。檢索的結果以圖譜的方式展示,在結果中可以進一步顯示案卷級目錄信息、文件級信息、空間位置信息等,并能夠回答類似表2中的地質專業問題,實現了使用了某種野外勘探手段的資料、根據礦產語義查詢涉及某種礦產或礦種的資料、查詢和某種礦床成因類型相關的資料等一系列傳統數據庫無法解決的問題。如,在檢索某地區內和研究目標詞匯“二疊系”地層相關的案卷時,同時會把“阿木山組”地層的資料檢索出來,因為在知識圖譜中存在“阿木山

      5結論

      通過對自然語言處理、知識圖譜技術的理解和分析,結合地質專業檔案目錄庫、圖文數據庫,針對地質專業檔案管理和服務的真實需求和面臨的問題,建立了面向借閱服務的地質專業領域知識圖譜,實現了地質專業檔案語義化檢索服務。領域知識圖譜的應用效果很大程度上取決于知識圖譜的規模和對問題域的覆蓋程度。在后續研究中,需進一步完善以地質為核心覆蓋其他專業的專業知識本體結構,完善非結構化信息抽取算法,實現地學專業知識本體構建的自動化,形成較完善的大規模的地質專業檔案知識圖譜,提高智能化服務能力。

      參考文獻:

      [1]吳永亮,陳建平,等.地質數據本體構建及其在數據檢索中的應用[J].地質通報,2018,37(5):945-952

      [2]高瑩,侯凌燕,劉秀磊.煤礦典型動力災害知識庫建設現狀及發展方向[J].煤炭科學技術,2018,46(S1).

      [3]侯志偉,諸云強,高楹,等.地質數據本體構建及其在數據檢索中的應用[J].地球信息科學,2018,20(1):20-24.

      [4]孫凱,諸云強,潘鵬,等.形態本體及其在地理空間數據發現中的應用研究[J].地球信息科學學報,2016,18(8):1011-1021.

      作者:張曄 單位:內蒙古自然資源廳地質資料館

      中中文字幕亚洲无线码| 亚洲av无码一区二区三区不卡 | 亚洲精品国产av成拍色拍| 久久久无码精品亚洲日韩按摩| 黑人精品videos亚洲人| 亚洲精品你懂的在线观看| 国产午夜亚洲不卡| 亚洲一区二区三区偷拍女厕| a级亚洲片精品久久久久久久| 亚洲一区无码精品色| 亚洲人成电影在线播放| 亚洲日韩精品无码专区网站| 亚洲Aⅴ无码一区二区二三区软件 亚洲AⅤ视频一区二区三区 | 亚洲成a人片在线观看中文动漫| 亚洲人成人无码网www电影首页| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 亚洲av成人一区二区三区在线观看| 噜噜噜亚洲色成人网站| 亚洲AV无码专区日韩| 亚洲精品动漫人成3d在线| 国产精品V亚洲精品V日韩精品 | 久久激情亚洲精品无码?V| 亚洲第一区精品日韩在线播放| 亚洲一区二区三区在线视频| 国产亚洲精品无码拍拍拍色欲| 怡红院亚洲怡红院首页| 亚洲精品成人网站在线观看| 久久精品亚洲视频| 亚洲精品成人久久| 33333在线亚洲| 亚洲国产成人综合精品| 亚洲&#228;v永久无码精品天堂久久| 亚洲av无码国产精品色在线看不卡| 国产成人亚洲综合无码| 亚洲AV无码成人网站久久精品大| 久久久久亚洲精品日久生情| 亚洲www在线观看| MM1313亚洲精品无码久久| 亚洲综合久久夜AV | 亚洲成A人片在线观看WWW| 久久久久亚洲AV无码网站|