首頁 > 文章中心 > 正文

      特種醫學深網信息自動獲取技術研究

      前言:本站為你精心整理了特種醫學深網信息自動獲取技術研究范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

      特種醫學深網信息自動獲取技術研究

      一面向深網資源的信息抽取與分類技術研究

      筆者以實現深網信息自動化獲取為研究目標,從面向深網資源的搜索提取方法、面向實體層Web的信息索引和分類技術、面向用戶的信息檢索平臺建設3個技術層面展開研究,有計劃地將大量無序的特色網絡資源實現自有化并得以快捷利用。

      1基于半監督順序回歸模型的爬蟲算法

      在資源搜索方面,將搜索目標設定為通常無法訂購但軍事特種醫院特點鮮明的特色資源。通常,這些網絡資源都是以深網的方式存儲,并且無法直接獲取。為此,筆者研究了面向深網的信息提取技術,研究并實現了一種面向軍事特種醫院資源的基于半監督順序回歸模型的快速爬蟲算法。此算法主要包括以下3個步驟:首先,根據軍事特種醫院網站資源的特點,利用半監督順序回歸的方法構造深網頁面分類器,定義所需的主題相關的網頁分為N個不同的層次。此時層次的數量級根據所給定網站資源特點設定。一般情況下,N≤4。其次,構造深網鏈接信息抽取器,抽取對應N層次的有效鏈接。在提取這些鏈接信息時,采用多線程的方法完成。最后,把深網頁面分類器的分類作為指導,形成特征庫,利用讓爬蟲自動提取滿足要求的鏈接特征,快速實時地找到各層有效鏈接。對于爬行過程而言,筆者具體采用如下方法:在開始爬行前,把預先定義的符合特種醫院資源信息的種子放入最低層的鏈接隊列中,鏈接信息提取器從深網頁面中抽取滿足特點規則的鏈接信息,包括鏈接的網址、頁面標題,鏈接的錨屬性等信息,并同時交付鏈接特征學習器。在鏈接特征學習器中,筆者將采用深度機器學習方法,將這些特征進行歸類、分析。然后,按照上述方法,將所有N層隊列中的鏈接進行爬行。對于同一層次的鏈接,根據預先定義的規則讓距離網站主頁近的鏈接先爬行。這樣,既可以爬行到最佳的鏈接,又保證讓所有的鏈接都被爬行到。系統運行結果表明筆者提出的爬行策略能夠提取深網中有效鏈接的基本特征,并過濾掉無關鏈接,提高了爬蟲的速度和準確度。

      2面向實體層Web的信息索引技術

      采用高效的爬蟲技術從DeepWeb上抽取出的軍事特種醫院特點鮮明的特色資源之后,將其存儲在本地數據庫中。對于索引而言,由于軍事特種醫院信息的特色,其索引對象可表示為Web實體(WebEntity)。Web實體通常具有各種屬性,并由屬性進行描述。如海軍信息、潛水艇實體,具有長、寬、重量、下水深度等屬性,可以將軍事特種醫院信息劃歸為多種不同實體。顯然,進行實體搜索,索引的對象為實體而非頁面,其索引域為實體的各個屬性。用戶進行檢索時,搜索器根據搜索關鍵字來查詢實體索引域,然后進行綜合排序?;诖?,筆者提出了一種基于迭代和組合的信息抽取方法,實現Web實體的信息抽取及其索引建立。整個基于迭代和組合的信息抽取和索引方法實現框架圖。為實現此信息抽取方法,首先生成簡單的頁面索引。頁面層的索引技術,主要采用基于關鍵字的倒排排序方法,然后再對其按實體關鍵屬性進行分類。其次,采用學習和深度搜索的方法抽取基本實體屬性信息。在該過程,首先利用基于反饋的條件隨機域模型來抽取實體的屬性信息,之后通過快速排序及其深度搜索方法窮盡搜索包含某些特定實例的所有頁面集。采用基于反饋的條件隨機域模型的基本思想是先從已有的實體集中構造訓練數據集,采用預先定義的規則對訓練數據集中的頁面進行有條件的標注,然后進行模型訓練。在訓練中,筆者采用基于反饋的方式進行,即通過已有的訓練結果對訓練模型進行反饋,提高訓練的速度和效率,最終使得抽取精度較高。最后,在迭代抽取和組合集成過程中,采用方法的基本原理是:對所有的待抽取頁面集,進行用戶交互定義的頁面快速分割,將頁面分割成多個不同的部分。然后,根據實體模型,對于還未抽取的相關實體屬性,采用上述的抽取方法進行迭代抽取,并將抽取的數據結果集成在一起,最后構成一個完整可信的信息實體。

      3面向用戶的分布式信息檢索平臺建設

      在此分布式信息檢索平臺建設中,根據用戶的需求,采用上述相關關鍵技術,設計了一個面向用戶的分布式信息檢索平臺。本平臺的后端服務器采用主從分布式架構。本檢索平臺由3個主要部分構成,分別為:總體控制服務器、半監督順序回歸爬蟲服務器和迭代與組合實體索引檢索服務器。其中,總體控制服務器主要負責整個爬蟲系統的整體控制管理、各個服務器之間消息的發送、傳遞以及任務的分配等等;半監督順序回歸爬蟲服務器主要負責爬行深網,下載軍事特種醫院信息網頁,并抽取網頁中包含的各種實體信息;索引檢索服務器主要負責接收采集到的特種醫院軍事等實體信息,并以建立索引,為用戶提信息搜索等服務。此外,為了保證系統運行的可靠性,總體控制服務器和迭代與組合實體索引檢索服務器均采用了雙機熱備份的方式,以維護服務器和對應的備用服務器之間數據的同步。本系統中的控制服務器是采用按用戶指定的靜態任務分配模式來進行網頁采集,所以控制服務器和它的備用服務器之間的通信量不會太大,之間的數據同步壓力并不大,從而可以解決主從式分布爬蟲系統中控制服務器的效率瓶頸問題。

      二總結

      綜上所述,采用基于順序回歸模型的爬蟲方法,跟蹤搜集獲取深網中不定期的各類難以獲取的專業文獻信息,準確度和時效性均高于利用人工進行數據篩選的方式;采用基于迭代和組合的信息抽取和索引方法,結合面向軍事特種醫學學科的網絡實體信息分類技術,可以實現專業文獻分類架構及其專業分類簡表的構建,獲取數據的基本屬性識別率達到85%以上。結合上述關鍵技術,可有效提高構建基于深網信息的軍事特種醫學全文數據信息檢索平臺的速度。

      作者:楊柳 仇順海 單位:海軍醫學研究所醫學科技信息中心

      国产午夜亚洲精品理论片不卡 | 亚洲精品线在线观看| 亚洲综合熟女久久久30p| 亚洲人成色7777在线观看不卡| 亚洲heyzo专区无码综合| 亚洲欧美熟妇综合久久久久| 亚洲熟妇丰满xxxxx| 亚洲欧洲精品成人久久曰| 亚洲欧美日韩一区二区三区在线| 亚洲人精品亚洲人成在线| 亚洲avav天堂av在线网爱情| 国产精品亚洲专区在线观看 | 国产乱辈通伦影片在线播放亚洲 | 亚洲成人网在线播放| 亚洲国产亚洲片在线观看播放| 亚洲福利电影在线观看| 亚洲校园春色小说| 亚洲jizzjizz在线播放久| 亚洲午夜精品久久久久久app| 亚洲日韩AV无码一区二区三区人| 亚洲成AV人片高潮喷水| 国产精品亚洲精品日韩动图 | 亚洲国产精品丝袜在线观看| 亚洲中文字幕伊人久久无码| 黑人大战亚洲人精品一区| 亚洲精品色午夜无码专区日韩| 亚洲日韩激情无码一区| 亚洲av伊人久久综合密臀性色| 久久水蜜桃亚洲av无码精品麻豆 | jzzijzzij在线观看亚洲熟妇| 亚洲福利精品电影在线观看| 久久影视国产亚洲| 亚洲日产无码中文字幕| 亚洲视频在线播放| 亚洲一区二区三区免费在线观看 | 亚洲国产高清国产拍精品| 亚洲AV网站在线观看| 亚洲欧洲精品无码AV| 亚洲人成在线电影| 亚洲精品二三区伊人久久| 亚洲av永久无码天堂网|