前言:本站為你精心整理了關聯出版物數據組織框架范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
關聯數據特性
關聯數據,尤其是關聯公開數據是互聯網的巨大財富,為圖書館從書目管理向知識關聯的遷移提供了重要的發展機會[3]。相比其他的技術,關聯數據的門檻較低,難度較小。關聯數據是語義網較為成功的應用。通過將現有數據以RDF的形式重新并加以關聯、共享,將無結構、半結構的數據進行結構化表達。將已有數據為關聯數據需要遵循以下原則。首先,任何實體必須有唯一的URI[4]。即所有的事物應以HTTP形式表達。例如,關于圖書有ISBN、出版商、出版時間、地點等。關于某人的數據包括出生地、出生年月日、工作地、發表的論文、科研項目等必須有唯一的URI表示。此方法確保實體不會被混淆。這種方法較之圖書館、情報服務界過去沿用的DOI等方式,更具有機器可讀性。因此適于應用在更廣闊的領域[2]。其次,數據需要以RDF三段式表達。即文件事物、特性、值。例如,“某書的出版單位是武漢大學出版社”。其中,“某書”是主語,“出版單位是”為謂語,“武漢大學出版社”是賓語。其中,“武漢大學出版社”在“所在地”、“主管單位”、“成立時間”、“重要出版物”、“郵政編碼”、“電話區號”、“經緯度”等RDF三段式表達中又可以作為主語。通過這種形式,所有的關系都可以關聯起來。其中,特定的“郵政編碼”、“電話區號”、“經緯度”等一般為常量,不再進行新的RDF關聯。以RDF三段式表達的數據形式,每一段均可回答特定問題。例如,“哪本書是由武漢大學出版社出版的?其作者的工作單位、聯系方式是?”這些問題以傳統的數據庫查詢方式即可完成。但類似于“科研項目與武漢大學無關但在武漢大學出版社出版著作的有多少作者?”等涉及多表聯查的問題是數據庫處理的瓶頸。而這恰恰是關聯數據的優勢。由于大量RDF數據已經通過關聯數據的形式在語義數據云圖中提供共享訪問,因此,不需要重復輸入大量數據。而是通過對關聯數據集進行SPARQL查詢等形式獲取所需關系。由這些例子可以看到,關聯數據的三段式形式在問答中的重要作用。又如,“某人和武漢大學圖書館有何關系?”,類似的開放性問題的智能問答,需要在RDF中查找所有可能存在的關系,然后以合理的計算時間和空間代價完成收斂。毫無疑問,這些數據如果依靠人工提取會耗費大量時間和人力。如果約定使用標準的謂詞詞匯表,可以用自動提取的形式完成此類工作。
在出版物方面的應用中,瑞典國家圖書館對聯合書目進行關聯數據化處理。美國國會圖書館、法國、德國等國的國家圖書館用標題表等形式將書目等數據與語義數據云圖進行關聯。在關聯公開數據集中,數據來自不同專業機構,通過DataHub(數據集成交換)鏈接在一起。CKAN項目對其中的數據進行統一評價、管理。在目前集成的關聯數據集中,數據質量參差不齊。截至2011年質量較高的關聯數據集已有200多個,而這一數字在未來1~2年內可能會增長3倍。其中,統計數據集、詞匯表、藝術、氣象、圖書館書目數據關聯組提供的數據經過測評被公認為具有較高質量。該數據集提供的詞表、本體、人名、地名規范、會議名稱等對于本領域及其他領域學者的研究和具體應用作用巨大[3]。在具體的應用中,通過RDF嵌入到HTML中,鏈接到Dbpedia等關聯數據集。也可以專門的應用程序(Apps)實現對關聯數據的調用。據預測,未來3年內,互聯網上的大部分人物、事件將具有關聯數據的形式并提供公開訪問。在LinkedOpenData(關聯公開數據)中,最重要的是關聯(Linked)。盡管關聯程度可能存在差異,不一定是整個數據集完全關聯,但即使部分數據實現了關聯,也可以先將已有的關聯數據資源提供共享和訪問[4]。公開(Open)是LOD(LinkedOpenData)的重要性質。關聯數據的公開要求者和使用者署名完整。
未經許可,禁止進行商業使用。關聯數據使用要求以相同形式分享。例如,在某PPT中使用了關聯數據中的圖表,則需要完整署名、同等分享。這一規定的作用在于,首先,數據提供者可以通過標準描述語言數據。其次,使得圖書館資源不再囿于原有束縛,面向更為寬廣的應用領域。將書目數據與關聯數據集鏈接,使得大量信息得到豐富。作者簡介、書號、出版時間、出版社等大量內容可供訪問。RDF三段式中的主謂賓的賓語又可變為主語,在關聯數據集中不斷擴展。從而將數據庫中的數據打開,使其變為網絡數據庫的部分功能[5-6]。例如,通過關聯數據查詢胡昌平教授主編的《信息服務與用戶》出版單位和出版時間,不僅可以獲得所需要信息,還可以進一步擴展至作者胡昌平教授的簡介、研究方向、科研項目、、論文合作者、其他相關著作及出版物的書目、體裁、語種。圖書館通過將現有數據通過關聯數據的形式進行再利用,充分發揮已有較大規模、高質量書目數據的優勢,將已有數據與關聯數據集中的語義資源接軌。例如,上海圖書館將下屬各分館所在地址、館藏書目等信息聯系起來,通過規范數據,圖書館關聯數據孵化小組對于數據的獲取、匹配、關聯等方法進行了一系列研究。過去圖書館中的數據是知識獲取的終點,而在關聯數據的支持下會變為知識獲取的起點。圖書館不僅提供詳細、準確的書目信息和圖書資料,還能與外部非圖書館、非文獻等數據進行關聯,從而重新成為知識殿堂。
本文提出一種基于映射的圖書館關聯出版物數據自動生成方法。映射的依據是語義相似度。首先需要明確兩個概念:語義相關度和語義距離。語義相關度表示詞語之間的關聯程度,反映的是概念之間的組合特點。例如圖書與出版社相似度很小,但是相關度卻非常的大,每個圖書都離不開出版社。語義距離表示詞語之間在語義樹上經歷的路徑,是衡量兩個詞語之間的語義相似度的一種手段,語義距離越小,語義相似度越大。本文在關聯出版物數據的組織中,采用語義相似度來判斷出版物概念間語義關系。
關聯出版物數據組織模塊關聯出版物數據組織與語義查詢的總體結構如圖1所示。通過人工或半自動方式建立基本知識本體;以其中的概念為基礎對獲取的出版物資源預處理并將結果轉化為RDF三元組構建關聯數據。用戶通過服務接口以自然語言或SPARQL方式查詢,經過語義推理和語義擴展對關聯出版物數據進行語義查詢;擴展基本本體構建領域知識本體庫。出版物網站和圖書館網站中已經積累了大量的文檔資源,基于語義Web和本體技術將這些異構無序、缺泛關聯的文檔轉換成具有語義索引結構的關聯出版物數據。進一步擴建和集成領域知識本體,構建可管理的知識體系,為知識服務建立數據基礎。通過領域詞典和專家知識構建出版物知識本體,建立基于學習特征的知識本體元數據模型,全面描述出版物知識基本信息、知識類型、認知結構、知識之間的語義關聯和認知順序。建立包含出版物結構中章、節、知識點的知識本體,包括各種粒度知識的標識、名稱、類型、描述、前導、后繼和關聯知識等。研究知識本體使用RDF框架描述和用關系數據庫方式存儲出版物知識本體庫?;谥R本體的語義標注組建關聯出版物數據,對XML元數據描述的出版物學習對象及URL定位的學習資源,在出版物知識本體庫的支持下,以RDF三元組描述和用URI建立它們之間的鏈接,組建關聯出版物數據[9]。結合目前的出版物網站資源進行關聯出版物數據集成,并進行領域知識本體擴展[6]。通過基于本體推理和gate的半監督機器學習自動語義關系標注算法,以gate工具對出版物資源訓練集進行實體識別,構建半監督機器學習的樣本集合集訓練樣例,完成自動語義關系標注[11-12]。通過基于多出版物網站來源的多文檔自動摘要算法,以已有的出版物網站資源為輔助,通過復合多項式算法進行文本塊語義聚類,實現知識點自動摘要[13-15]。在以自然語言處理技術完成用戶查詢語句語義標注的基礎上,應用領域本體實現用戶查詢語義擴展,提高對用戶查詢需求理解的精準度。應用領域本體推理,約簡用戶查詢的語義表達,提高復雜語義查詢效率。應用語義/語法近似技術,實現OWL-DL描述的大規模關聯出版物數據的推理,在保持OWL-DL近似的語義查詢精準度的基礎上,提高其語義查詢效率。
關鍵技術海量出版物資源的組織與處理是關于知識管理和知識服務的關鍵科學問題,解決方案包括:(1)基于語義網層次體系結構描述和組織出版物資源,把異構無序的海量資源組織成符合人認知規律的知識點關聯的領域知識體系,實現無語義結構資源到有序可管理知識的轉變。(2)對海量學習資源隱含的概念、屬性及關系進行自動語義數據提取和標注,建立并擴展知識本體,為知識服務提供支持。(3)利用本體推理,實現針對大規模關聯出版物數據的精準語義查詢。
實驗系統設計及實現
本文設計基于Protégé的關聯出版物數據構建算法。
系統算法設計例如:概念“ELSA總線”繼承了多個匿名類,分別代表了它的多個性質,其中“hasPrevsomeBUS”是它的第一個性質,hasPrev是一個對象屬性,some關鍵字就是類表達能力里面描述的ObjectSomeValues-From存在限制,BUS是一種命名類,此種動賓結構式的表達用于匿名類中,然后讓其他類去繼承,以此來達到表現性質的效果。此處的匿名類“hasPrevsomeBUS”是內部類,也即“某總線”內部的父類,該父類無法被其他類共享或繼承。完成如上步驟后,該類就具有了相應的性質,這種性質是具有語義信息的,能夠為推理機所識別、理解、推理。同時這些性質就像對外的接口,能被其他類識別,以此作為橋梁和自身產生關聯,比如推理出存在隱含的父子關系。關聯數據構建中的算法Input:源于出版物資源的經預處理后文本Step1.提取出一個類的性質,將每個性質寫成動賓結構Step2.對每個動賓結構提取相應的動詞Step3.對應對象屬性,提取相應的賓語,對應對象屬性的客體Step4.將每組動賓結構寫成匿名類的方式,然后作為該類的父類Output:Protégé中的類、屬性表達本文將采用Bootstrapping方法進行未標注數據的分類(1)從圖書館館藏的電子出版物資源中下載關于“微機原理及接口”出版物的文檔數據,文檔規模約為3G;(2)從所下載的電子出版物資源中找出含有實體對應關系的句子。從這些句子中抽取特征以形成對應的特征向量。為每個實體對選擇50個實例作為待標注語料;(3)選取不同的類種子集,訓練分類器,對特征值維度超過設定閾值的對象進行降維處理。對生成的實例測試集進行測試,分析所設定閾值的合理性,必要時進行調校。根據計算獲得的最大關系類別概率設定關系類別閾值;(4)將符合條件的新標注數據添加至原訓練集中,重新訓練,對剩余的未標注數據進行測試,過濾得到較高質量的標注數據;(5)如果過濾后得到的標注數據數量大于等于設定的閾值,結束標注過程。否則回到(4)。此處閾值根據最大類別權值與極大類別權值的差值而設定的。我們以文本塊為單位,識別出了包含一個概念的所有文本塊及該概念所對應的具體類。下一步需要標注出這些類的屬性實例,以及和其它類之間的關系實例,并在此基礎之上生成RDF文檔。我們首先找出包含指定概念的所有文本塊;然后基于語義詞典進行概念的識別,識別出領域專業名詞;在此基礎上,生成triples集合;最后進行統一實例的融合,并生成RDF文檔。以輸入的出版物資源片段為例:“RAM(randomaccessmemory)隨機存儲器。存儲單元的內容可按需隨意取出或存入,且存取的速度與存儲單元的位置無關的存儲器。這種存儲器在斷電時將丟失其存儲內容,故主要用于存儲短時間使用的程序。按照存儲信息的不同,隨機存儲器又分為靜態隨機存儲器(StaticRAM,SRAM)和動態隨機存儲器(DynamicRAM,DRAM)。這一文本塊的核心概念是隨機存儲器,通過前面的方法,我們已經識別出它是一個存儲器的實例。接下來,首先,找出包含“隨機存儲器”的句子,在本例中即是:“隨機存儲器又分為靜態隨機存儲器(StaticRAM,SRAM)和動態隨機存儲器(DynamicRAM,DRAM)”。然后,通過基于語義詞典的命名識別算法,可提取出概念的包含關系———本例中的謂詞“分為”,概念名———本例中的客體“靜態隨機存儲器”,概念名———本例中的客體“動態隨機存儲器”。根據本體規范生成三元組:(隨機存儲器,包含靜態隨機存儲器)、(隨機存儲器,包含,動態隨機存儲器)。
實驗系統環境實驗系統環境為CPU1.8GHz、內存2G、硬盤大小為500GB。操作系統MicrosoftWindowsXPProfession-al。安裝如下軟件apache-tomcat-6.0.29、jdk1.6.0_14、apache-solr-1.4.1、Gate6.0、WordNet2.1、Protege4.2。
實驗系統實現實驗數據集合采用武漢大學出版社、華中科技大學出版社等出版機構自2002至2012年間出版的計算機硬件課程出版物共72本,如《微機原理及接口》、《數字電路原理》、《計算機組成原理》、《大規模集成電路》等。
關聯出版物數據自動生成實驗本文對關聯圖書館數據自動生成進行實驗。首先參照MUC和MET的評估指標對本信息抽取系統進行一個整體的評測,系統中的知識庫涵蓋了概念的中英文名稱、概念解釋、概念關系、所屬知識單元、難度級別等內容,基本涵蓋了關聯出版物數據所涉及到的各個角度的內容,能夠提供很好的支持。對該系統進行測試的數據集含有2336個經相關領域專家人工審核的概念,其中2139個概念已經由專家通過人工標注關聯信息(用Link(total)表示)。在實驗中,系統自動標注出關聯信息2105個,用Link(autoannotation)表示。經過人工核查,發現系統自動標注2105個關聯信息中有213個未達到摘要要求,用Link(error)表示。
關聯出版物數據管理與本體建模實驗圖2是以為出版物《微機原理及接口》為例,介紹圖書館關聯出版物數據管理與本體建模的界面。
實驗結果分析由于實驗中使用的出版物數據主要是教材,以說明文的形式出現,具有較為規范的文法表達,通過一些常用的指示詞(如:…是指…等)就能夠對候選摘要內容進行較準確的定位。因此,還可以對現有自動摘要算法中的特征模型進行修改,使其更加符合面向關聯課程數據的多文檔摘要內容的形式和規律。良好的擴展性使得本文方法能夠在不斷擴展抽取內容范圍的同時,提高抽取信息的準確率。從應用角度來說,關聯課程數據處理平臺要求盡可能對每一個概念都能夠提取一定的信息生成相應摘要,而對生成的摘要而言,并不要求其所表達的內容與來源文檔表達的意思完全吻合。因此,在設計多文檔摘要抽取系統時采用了提升段落、句子位置權重的方式提高信息抽取的準確率,這從一定程度上降低了摘要抽取的召回率。從實驗可以看出,系統的準確率達到了一個較理想的狀態。除了上述主觀因素外,可能還受到了文檔來源比較單一、數量較少的影響。這些因素在一定程度上提高了準確率,從而可能使多文檔自動摘要的準確率高于真實水平。下一步改進的內容為:擴展多文檔數據來源,收集更廣泛的語義數據資源(如:出版物關聯數據集),進一步完善關聯出版物數據平臺內容。
結語
用戶眼中的信息空間已經發生了很大改變,不再局限于圖書館等機構內部,而是進入開放的互聯網環境。用戶對于信息的關聯性及可用性更加重視。關聯數據的應用關系到圖書館的發展前景。在互聯網高速發展的形勢下,圖書館在功能和存在價值方面不斷受到挑戰,整個局勢較為嚴峻,圖書館界對此應高度重視,積極尋找應對策略。實驗結果說明,本文所提出的方法可以滿足關聯數據構建的要求,但在關聯出版物數據的更高級應用中可能需要本體推理,因此,在基于Protégé構建關聯出版物數據時,需要在類的對象屬性中設置互斥屬性或函數屬性,但此兩種匿名屬性當類層次較多時容易出現本體不一致的情形,所以,當關聯出版物數據處理平臺在面對海量出版物資源應用時,應增加本體一致性檢測環節。
作者:瞿成雄單位:武漢大學信息管理學院