首頁 > 文章中心 > 正文

      特種醫學深網信息自動獲取技術研究

      前言:本站為你精心整理了特種醫學深網信息自動獲取技術研究范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

      特種醫學深網信息自動獲取技術研究

      一面向深網資源的信息抽取與分類技術研究

      筆者以實現深網信息自動化獲取為研究目標,從面向深網資源的搜索提取方法、面向實體層Web的信息索引和分類技術、面向用戶的信息檢索平臺建設3個技術層面展開研究,有計劃地將大量無序的特色網絡資源實現自有化并得以快捷利用。

      1基于半監督順序回歸模型的爬蟲算法

      在資源搜索方面,將搜索目標設定為通常無法訂購但軍事特種醫院特點鮮明的特色資源。通常,這些網絡資源都是以深網的方式存儲,并且無法直接獲取。為此,筆者研究了面向深網的信息提取技術,研究并實現了一種面向軍事特種醫院資源的基于半監督順序回歸模型的快速爬蟲算法。此算法主要包括以下3個步驟:首先,根據軍事特種醫院網站資源的特點,利用半監督順序回歸的方法構造深網頁面分類器,定義所需的主題相關的網頁分為N個不同的層次。此時層次的數量級根據所給定網站資源特點設定。一般情況下,N≤4。其次,構造深網鏈接信息抽取器,抽取對應N層次的有效鏈接。在提取這些鏈接信息時,采用多線程的方法完成。最后,把深網頁面分類器的分類作為指導,形成特征庫,利用讓爬蟲自動提取滿足要求的鏈接特征,快速實時地找到各層有效鏈接。對于爬行過程而言,筆者具體采用如下方法:在開始爬行前,把預先定義的符合特種醫院資源信息的種子放入最低層的鏈接隊列中,鏈接信息提取器從深網頁面中抽取滿足特點規則的鏈接信息,包括鏈接的網址、頁面標題,鏈接的錨屬性等信息,并同時交付鏈接特征學習器。在鏈接特征學習器中,筆者將采用深度機器學習方法,將這些特征進行歸類、分析。然后,按照上述方法,將所有N層隊列中的鏈接進行爬行。對于同一層次的鏈接,根據預先定義的規則讓距離網站主頁近的鏈接先爬行。這樣,既可以爬行到最佳的鏈接,又保證讓所有的鏈接都被爬行到。系統運行結果表明筆者提出的爬行策略能夠提取深網中有效鏈接的基本特征,并過濾掉無關鏈接,提高了爬蟲的速度和準確度。

      2面向實體層Web的信息索引技術

      采用高效的爬蟲技術從DeepWeb上抽取出的軍事特種醫院特點鮮明的特色資源之后,將其存儲在本地數據庫中。對于索引而言,由于軍事特種醫院信息的特色,其索引對象可表示為Web實體(WebEntity)。Web實體通常具有各種屬性,并由屬性進行描述。如海軍信息、潛水艇實體,具有長、寬、重量、下水深度等屬性,可以將軍事特種醫院信息劃歸為多種不同實體。顯然,進行實體搜索,索引的對象為實體而非頁面,其索引域為實體的各個屬性。用戶進行檢索時,搜索器根據搜索關鍵字來查詢實體索引域,然后進行綜合排序。基于此,筆者提出了一種基于迭代和組合的信息抽取方法,實現Web實體的信息抽取及其索引建立。整個基于迭代和組合的信息抽取和索引方法實現框架圖。為實現此信息抽取方法,首先生成簡單的頁面索引。頁面層的索引技術,主要采用基于關鍵字的倒排排序方法,然后再對其按實體關鍵屬性進行分類。其次,采用學習和深度搜索的方法抽取基本實體屬性信息。在該過程,首先利用基于反饋的條件隨機域模型來抽取實體的屬性信息,之后通過快速排序及其深度搜索方法窮盡搜索包含某些特定實例的所有頁面集。采用基于反饋的條件隨機域模型的基本思想是先從已有的實體集中構造訓練數據集,采用預先定義的規則對訓練數據集中的頁面進行有條件的標注,然后進行模型訓練。在訓練中,筆者采用基于反饋的方式進行,即通過已有的訓練結果對訓練模型進行反饋,提高訓練的速度和效率,最終使得抽取精度較高。最后,在迭代抽取和組合集成過程中,采用方法的基本原理是:對所有的待抽取頁面集,進行用戶交互定義的頁面快速分割,將頁面分割成多個不同的部分。然后,根據實體模型,對于還未抽取的相關實體屬性,采用上述的抽取方法進行迭代抽取,并將抽取的數據結果集成在一起,最后構成一個完整可信的信息實體。

      3面向用戶的分布式信息檢索平臺建設

      在此分布式信息檢索平臺建設中,根據用戶的需求,采用上述相關關鍵技術,設計了一個面向用戶的分布式信息檢索平臺。本平臺的后端服務器采用主從分布式架構。本檢索平臺由3個主要部分構成,分別為:總體控制服務器、半監督順序回歸爬蟲服務器和迭代與組合實體索引檢索服務器。其中,總體控制服務器主要負責整個爬蟲系統的整體控制管理、各個服務器之間消息的發送、傳遞以及任務的分配等等;半監督順序回歸爬蟲服務器主要負責爬行深網,下載軍事特種醫院信息網頁,并抽取網頁中包含的各種實體信息;索引檢索服務器主要負責接收采集到的特種醫院軍事等實體信息,并以建立索引,為用戶提信息搜索等服務。此外,為了保證系統運行的可靠性,總體控制服務器和迭代與組合實體索引檢索服務器均采用了雙機熱備份的方式,以維護服務器和對應的備用服務器之間數據的同步。本系統中的控制服務器是采用按用戶指定的靜態任務分配模式來進行網頁采集,所以控制服務器和它的備用服務器之間的通信量不會太大,之間的數據同步壓力并不大,從而可以解決主從式分布爬蟲系統中控制服務器的效率瓶頸問題。

      二總結

      綜上所述,采用基于順序回歸模型的爬蟲方法,跟蹤搜集獲取深網中不定期的各類難以獲取的專業文獻信息,準確度和時效性均高于利用人工進行數據篩選的方式;采用基于迭代和組合的信息抽取和索引方法,結合面向軍事特種醫學學科的網絡實體信息分類技術,可以實現專業文獻分類架構及其專業分類簡表的構建,獲取數據的基本屬性識別率達到85%以上。結合上述關鍵技術,可有效提高構建基于深網信息的軍事特種醫學全文數據信息檢索平臺的速度。

      作者:楊柳 仇順海 單位:海軍醫學研究所醫學科技信息中心

      激情综合亚洲色婷婷五月| 亚洲成A人片在线观看中文| 亚洲尤码不卡AV麻豆| 亚洲国产成人影院播放| 亚洲国产精品成人久久久| 精品亚洲A∨无码一区二区三区| 亚洲妇熟XXXX妇色黄| 国产精品亚洲A∨天堂不卡| 亚洲精品亚洲人成在线| 亚洲精品一区二区三区四区乱码 | 色偷偷亚洲男人天堂| 久久久亚洲精品无码| 亚洲国产综合精品中文第一区| 无码乱人伦一区二区亚洲| 亚洲成在人天堂一区二区| 亚洲网站在线观看| 亚洲AV永久无码天堂影院| 蜜臀亚洲AV无码精品国产午夜.| 337p日本欧洲亚洲大胆人人| 亚洲AV无码一区二三区| 不卡一卡二卡三亚洲| 亚洲人成电影在线播放| 亚洲人精品午夜射精日韩| 亚洲av永久无码精品秋霞电影影院 | 亚洲精品~无码抽插| 亚洲女人被黑人巨大进入| 亚洲日韩在线观看| 亚洲色WWW成人永久网址| 亚洲AV色香蕉一区二区| 亚洲高清成人一区二区三区| 校园亚洲春色另类小说合集| 亚洲精品综合久久| 色噜噜亚洲精品中文字幕| 久久亚洲精品中文字幕无码| 亚洲国产精品丝袜在线观看| 最新亚洲春色Av无码专区| www国产亚洲精品久久久日本| 伊人久久大香线蕉亚洲五月天| 亚洲αv久久久噜噜噜噜噜| 精品日韩亚洲AV无码| 亚洲一级毛片中文字幕|