數(shù)字圖書(shū)館檢索工具管理

      前言:本站為你精心整理了數(shù)字圖書(shū)館檢索工具管理范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢(xún)。

      數(shù)字圖書(shū)館檢索工具管理

      摘要:基于數(shù)字圖書(shū)館建設(shè)現(xiàn)狀,提出引進(jìn)搜索引擎技術(shù),建立數(shù)字圖書(shū)館檢索工具,探討檢索工具的功能及工作原理。

      關(guān)鍵詞:數(shù)字圖書(shū)館/檢索工具/搜索引擎/網(wǎng)絡(luò)信息資源

      1關(guān)于數(shù)字圖書(shū)館的設(shè)想

      1.1國(guó)內(nèi)數(shù)字圖書(shū)館的建設(shè)現(xiàn)狀

      目前,關(guān)于數(shù)字圖書(shū)館還沒(méi)有一個(gè)被公認(rèn)的定義,從現(xiàn)實(shí)建設(shè)工作來(lái)看,其形式也是多種多樣,有時(shí)它是一項(xiàng)國(guó)家數(shù)字資源系統(tǒng)工程(比如中國(guó)數(shù)字圖書(shū)館工程),有時(shí)它更像是一個(gè)網(wǎng)上書(shū)店(如超星數(shù)字圖書(shū)館、書(shū)生之家數(shù)字圖書(shū)館),而有時(shí)它更接近于傳統(tǒng)圖書(shū)館的數(shù)字化、網(wǎng)絡(luò)化(如上海數(shù)字圖書(shū)館等)。近幾年,我國(guó)圖書(shū)館的數(shù)字化工作和數(shù)字圖書(shū)館的建設(shè)進(jìn)行得如火如荼,的確取得了很大的成就,極大地豐富了中文網(wǎng)絡(luò)信息資源,尤其是學(xué)術(shù)信息資源,為用戶(hù)查詢(xún)和利用信息資源提供了方便。

      然而,無(wú)論是工程浩大的中國(guó)數(shù)字圖書(shū)館[1]、上海數(shù)字圖書(shū)館[2]、還是清華大學(xué)建筑數(shù)字圖書(shū)館[3]等等,都僅僅忙于將館藏信息資源數(shù)字化、網(wǎng)絡(luò)化,而忽視了對(duì)信息量巨大的網(wǎng)絡(luò)信息資源的組織。

      我們處在一個(gè)信息爆炸的時(shí)代,因特網(wǎng)信息資源以幾何級(jí)數(shù)的速度增長(zhǎng),導(dǎo)致幾個(gè)問(wèn)題的出現(xiàn):(1)信息過(guò)多,用戶(hù)難于尋找所需信息。帶著一定需求的用戶(hù)在因特網(wǎng)這個(gè)信息的海洋中常常迷失方向;(2)信息更新速度快,具較強(qiáng)的實(shí)時(shí)性,使人工標(biāo)引難以跟上信息的增長(zhǎng);(3)信息類(lèi)型多樣,除文本信息,還有圖像、音頻、視頻等信息,給在傳統(tǒng)文獻(xiàn)信息資源組織方面經(jīng)驗(yàn)豐富的圖書(shū)館編目員提出了新的課題。

      很多高校圖書(shū)館和公共圖書(shū)館意識(shí)到網(wǎng)絡(luò)信息資源的重要性,在圖書(shū)館門(mén)戶(hù)網(wǎng)站的首頁(yè)中設(shè)立“網(wǎng)絡(luò)導(dǎo)航”或“搜索引擎導(dǎo)航”欄目,提供國(guó)內(nèi)外著名搜索引擎門(mén)戶(hù)網(wǎng)站(如Yahoo、Excit、Altervista、google、百度、天網(wǎng)等)的鏈接以及學(xué)科網(wǎng)絡(luò)資源導(dǎo)航,對(duì)用戶(hù)查詢(xún)網(wǎng)絡(luò)資源起到了引導(dǎo)作用,而不是利用數(shù)字圖書(shū)館自身的資源為用戶(hù)提供服務(wù)全面的服務(wù),可以說(shuō)這還不是真正的數(shù)字圖書(shū)館。

      1.2我的數(shù)字圖書(shū)館理念

      到底怎樣的數(shù)字圖書(shū)館才是真正意義上的數(shù)字圖書(shū)館?從根本上來(lái)說(shuō),數(shù)字圖書(shū)館是為了解決網(wǎng)絡(luò)環(huán)境下數(shù)字化信息的組織、查詢(xún)與服務(wù)問(wèn)題[4]。筆者認(rèn)為判斷數(shù)字圖書(shū)館必須具備這樣三個(gè)指標(biāo):

      第一,數(shù)字圖書(shū)館具有豐富的數(shù)字化資源,包括OPAC書(shū)刊目錄庫(kù)、全文數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)信息資源庫(kù)等等。

      第二,數(shù)字圖書(shū)館能夠向用戶(hù)提供多種類(lèi)型的信息資源的檢索,如書(shū)目信息、書(shū)刊全文,各種音頻、視頻信息,還可提供網(wǎng)絡(luò)信息資源檢索服務(wù),如因特網(wǎng)上Web、FTP、Gopher、Wais、Usenet等信息資源。

      第三,數(shù)字圖書(shū)館將所有信息資源進(jìn)行整合,實(shí)現(xiàn)跨庫(kù)檢索,向用戶(hù)提供統(tǒng)一的檢索界面,檢索各種類(lèi)型的信息。檢索到的相關(guān)信息在統(tǒng)一的界面中顯示。

      參照以上三個(gè)指標(biāo),發(fā)現(xiàn)目前國(guó)內(nèi)建設(shè)數(shù)字圖書(shū)館已經(jīng)具備的一定的資源和技術(shù)基礎(chǔ),比如OPAC書(shū)刊目錄庫(kù)的標(biāo)準(zhǔn)化已經(jīng)實(shí)現(xiàn),自建和購(gòu)買(mǎi)的全文數(shù)據(jù)庫(kù)資源在高校圖書(shū)館已經(jīng)十分豐富,以上海數(shù)字圖書(shū)館為代表的圖書(shū)館在多媒體信息資源建庫(kù)和檢索方面成就顯著,而且信息資源的整合和跨庫(kù)檢索在技術(shù)上已經(jīng)不成問(wèn)題,目前亟待解決的問(wèn)題是加強(qiáng)和完善對(duì)網(wǎng)絡(luò)資源的組織和管理

      然而,如果采用圖書(shū)館貫用的人工標(biāo)引的方式,面對(duì)浩如煙海的網(wǎng)絡(luò)信息資源,別說(shuō)對(duì)所有的網(wǎng)絡(luò)信息進(jìn)行標(biāo)引,就是能達(dá)到0.01%的標(biāo)引率也幾乎是不可能的。因此,數(shù)字圖書(shū)館必須采用新的策略和方式對(duì)網(wǎng)絡(luò)信息資源進(jìn)行標(biāo)引,向提供信息檢索服務(wù)。

      1.3設(shè)想的提出

      以上提出的問(wèn)題是:建設(shè)真正的數(shù)字圖書(shū)館必須實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息資源的全面搜集、合理組織和有效利用,但傳統(tǒng)的人工標(biāo)引方法面對(duì)浩繁的網(wǎng)絡(luò)資源只能“望洋興嘆”,如何解決此矛盾?以筆者之見(jiàn),在建設(shè)數(shù)字圖書(shū)館的過(guò)程中應(yīng)引進(jìn)搜索引擎技術(shù),對(duì)網(wǎng)絡(luò)信息資源采用自動(dòng)標(biāo)引和人工標(biāo)引相結(jié)合的方式。

      1.3.1搜索引擎原理

      搜索引擎是因特網(wǎng)上最重要的應(yīng)用之一,它能夠在浩如煙海的因特網(wǎng)信息中找到用戶(hù)所需的信息,因此深得廣大用戶(hù)的喜愛(ài)。搜索引擎的工作原理是:利用Robot、Spider、WebCrawler等搜索軟件,即能夠從因特網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的數(shù)據(jù)收集系統(tǒng),將收集所得的網(wǎng)頁(yè)內(nèi)容交給索引和檢索系統(tǒng),索引和檢索系統(tǒng)通過(guò)掃描每一個(gè)網(wǎng)頁(yè)中的每一個(gè)詞,建立以詞為單位的倒排文檔,再根據(jù)關(guān)鍵詞在每一個(gè)網(wǎng)頁(yè)中出現(xiàn)的頻率對(duì)包含這些關(guān)鍵詞的網(wǎng)頁(yè)進(jìn)行排序,最后輸出排序結(jié)果。頁(yè)面生成系統(tǒng)再將結(jié)果高效地組裝成因特網(wǎng)頁(yè)面。我們就可以通過(guò)瀏覽器看到檢索結(jié)果了[5]。

      在國(guó)內(nèi),人們習(xí)慣于把一些能夠提供搜索的門(mén)戶(hù)網(wǎng)站稱(chēng)作搜索引擎(比如Yahoo),實(shí)際上這是一種誤解。從原理上來(lái)說(shuō),真正意義上的搜索引擎是基于因特網(wǎng)的搜索引擎,這種搜索引擎收集因特網(wǎng)上幾千萬(wàn)到幾億個(gè)網(wǎng)頁(yè),并且每個(gè)網(wǎng)頁(yè)上的每個(gè)詞都被搜索引擎所收錄,是基于整個(gè)因特網(wǎng)的全文檢索,其返回的結(jié)果可以具體到一個(gè)個(gè)相關(guān)的網(wǎng)頁(yè),所以我們稱(chēng)之為網(wǎng)頁(yè)搜索引擎,或全文搜索引擎。

      利用搜索引擎自動(dòng)搜集、標(biāo)引網(wǎng)絡(luò)信息,這種方式省時(shí)、省力,投入小,形成的數(shù)據(jù)庫(kù)覆蓋面廣,可提供關(guān)鍵詞、主題詞或自然語(yǔ)言等多種檢索途徑;但由于未經(jīng)過(guò)人工干預(yù),信息加工的質(zhì)量往往不高,從而使得檢索的查準(zhǔn)率較低,檢索效果不佳。

      1.3.2值得借鑒的作法——雅虎的信息組織方式

      雅虎的分類(lèi)目錄體系是采用人工標(biāo)引的方式對(duì)網(wǎng)絡(luò)信息進(jìn)行組織的成功典范。人們常常把雅虎的目錄服務(wù)認(rèn)為是搜索引擎,其實(shí)目錄服務(wù)和搜索引擎是兩個(gè)完全不同的概念。目錄服務(wù)是由編輯人員將各種網(wǎng)站按主要內(nèi)容進(jìn)行分類(lèi),組織成一層一層的分類(lèi)目錄。當(dāng)我們要查找某類(lèi)網(wǎng)站時(shí),就按照其屬性進(jìn)入相關(guān)類(lèi)目,一層一層地查找。這類(lèi)目錄服務(wù)同時(shí)也提供一定的搜索功能,但它的搜索范圍僅局限在這個(gè)人工編制的目錄系統(tǒng)內(nèi),當(dāng)用戶(hù)提交搜索請(qǐng)求后,這個(gè)搜索引擎就會(huì)在該目錄系統(tǒng)中尋找相關(guān)網(wǎng)站,然后作為搜索結(jié)果提交給用戶(hù),象這種目錄服務(wù)附帶的、基于該目錄系統(tǒng)的搜索引擎,我們一般稱(chēng)之為目錄搜索引擎,由于其最后返回的結(jié)果是一個(gè)個(gè)相關(guān)網(wǎng)站的地址,我們也稱(chēng)之為網(wǎng)站搜索引擎。雅虎分類(lèi)目錄能夠克服由機(jī)器自動(dòng)標(biāo)引帶來(lái)的諸多問(wèn)題,因此一時(shí)成為其他商業(yè)門(mén)戶(hù)網(wǎng)站學(xué)習(xí)的典范。

      但是,雅虎如果僅僅依靠人工標(biāo)引的分類(lèi)目錄提供搜索服務(wù),也存在許多無(wú)法克服的弊端。比如人工編制主題索引效率低,因而造成建立的數(shù)據(jù)庫(kù)規(guī)模較小,有些類(lèi)目下的文件數(shù)量有限,有價(jià)值的新站點(diǎn),新內(nèi)容反應(yīng)不及時(shí)等。因此,雅虎與專(zhuān)門(mén)做搜索引擎的公司進(jìn)行合作。

      雖雅虎公司以“搜索引擎”聞名全球,實(shí)際上它只做網(wǎng)站目錄,它只有搜索自己網(wǎng)站目錄的目錄搜索引擎。而雅虎網(wǎng)站上基于整個(gè)因特網(wǎng)的全文搜索引擎是由其他專(zhuān)做搜索引擎的公司提供的,以前是Inktomi,現(xiàn)在是Google。其實(shí)大多數(shù)商業(yè)門(mén)戶(hù)網(wǎng)站的搜索引擎都是引進(jìn)的,如美國(guó)在線、微軟的MSN都采用“Inktomi”公司的搜索引擎技術(shù)和服務(wù);國(guó)內(nèi)的中國(guó)人、硅谷動(dòng)力、廣州視窗均采用百度的搜索引擎服務(wù);第一華人中文網(wǎng)站新浪在去年11月23日宣布采用百度提供的中文網(wǎng)頁(yè)搜索服務(wù),推出新的綜合搜索引擎系統(tǒng),在與百度結(jié)束合約后,今年8月7日它又宣布與搜索新軍慧聰合作,采用該公司的網(wǎng)神搜索引擎服務(wù)。

      相比較而言,雅虎將自身的目錄服務(wù)和Google搜索引擎結(jié)合得相當(dāng)完美。從顯示格式來(lái)看[6],雅虎將檢索結(jié)果分為“相關(guān)分類(lèi)”、“相關(guān)網(wǎng)站”、“相關(guān)網(wǎng)頁(yè)”、“相關(guān)新聞”四項(xiàng),其中“相關(guān)分類(lèi)”、“相關(guān)網(wǎng)站”的內(nèi)容來(lái)自雅虎自己的分類(lèi)目錄,

      “相關(guān)新聞”的內(nèi)容來(lái)自雅虎資料庫(kù),而“相關(guān)網(wǎng)頁(yè)”的內(nèi)容則是Google的搜索結(jié)果。在用戶(hù)輸入檢索詞,點(diǎn)擊搜索后,雅虎的搜索工具實(shí)際上進(jìn)行的是跨庫(kù)檢索,同時(shí)通過(guò)接口技術(shù)要求Google搜索引擎進(jìn)行搜索,然后雅虎將所有的檢索結(jié)果以統(tǒng)一的界面顯示,看起來(lái)就象是從一個(gè)數(shù)據(jù)庫(kù)中得到的結(jié)果。其響應(yīng)性能很好,在不到一秒鐘的時(shí)間里就能提交結(jié)果。

      雅虎引進(jìn)Google搜索引擎,是采用手工方式與機(jī)器輔助相互配合對(duì)網(wǎng)絡(luò)信息進(jìn)行組織,提供統(tǒng)一的檢索界面和顯示格式。它具有人工標(biāo)引和自動(dòng)標(biāo)引兩方面的優(yōu)點(diǎn),值得我們?cè)诮ㄔO(shè)數(shù)字圖書(shū)館中學(xué)習(xí)、借鑒。

      1.3.3數(shù)字圖書(shū)館采用搜索引擎技術(shù)的設(shè)想

      圖書(shū)館的編目人員在長(zhǎng)期的工作實(shí)踐中積累了豐富的對(duì)信息資源進(jìn)行分類(lèi)的理論和經(jīng)驗(yàn),在網(wǎng)絡(luò)信息資源逐步發(fā)展成為一個(gè)巨大的、不斷迅速增長(zhǎng)的資源庫(kù)以前,圖書(shū)館工作人員對(duì)傳統(tǒng)文獻(xiàn)信息資源的組織是相當(dāng)成功的。然而,一旦面對(duì)網(wǎng)絡(luò)信息資源,這種人工標(biāo)引方式就顯得力不從心了。以CALIS網(wǎng)絡(luò)重點(diǎn)學(xué)科導(dǎo)航庫(kù)[7]為例,它是“211工程”立項(xiàng)高校圖書(shū)館共建項(xiàng)目。其目的是建立在INTERNET網(wǎng)上的導(dǎo)航庫(kù),收集整理有關(guān)重點(diǎn)學(xué)科的網(wǎng)絡(luò)資源,為這些已立項(xiàng)高校重點(diǎn)學(xué)科服務(wù),讓在重點(diǎn)學(xué)科領(lǐng)域的師生,以較快的速度了解本領(lǐng)域科技前沿研究動(dòng)向和國(guó)際發(fā)展趨勢(shì)。重點(diǎn)學(xué)科導(dǎo)航庫(kù)的建設(shè)工作進(jìn)行了近2年,共有48個(gè)圖書(shū)館參加該項(xiàng)目共建,各圖書(shū)館都投入了大量的人力來(lái)完成該校重點(diǎn)學(xué)科導(dǎo)航庫(kù)的建設(shè)。目前已完成213個(gè)重點(diǎn)學(xué)科導(dǎo)航庫(kù)建設(shè),共收錄了6萬(wàn)多個(gè)較重要的學(xué)術(shù)網(wǎng)站。導(dǎo)航庫(kù)網(wǎng)址的搜集和摘要都是由人工完成,耗費(fèi)了大量的人力、物力,而導(dǎo)航庫(kù)的資源只是整個(gè)網(wǎng)絡(luò)資源庫(kù)中微不足道的一小部分。所以,在數(shù)字圖書(shū)館資源建設(shè)中引進(jìn)搜索引擎技術(shù),可以節(jié)省人力、物力、財(cái)力,保證資源的完整性、全面性。

      2數(shù)字圖書(shū)館檢索工具

      2.1定義

      僅僅是引進(jìn)的搜索引擎,還不能作為數(shù)字圖書(shū)館的檢索工具,所謂數(shù)字圖書(shū)館檢索工具,是基于因特網(wǎng)信息資源和數(shù)字圖書(shū)館的信息資源庫(kù),利用統(tǒng)一的檢索平臺(tái)和用戶(hù)界面,提供各種類(lèi)型信息資源的檢索服務(wù)的系統(tǒng)。

      數(shù)字圖書(shū)館檢索工具與搜索引擎的區(qū)別在于:搜索引擎只能提供因特網(wǎng)資源的檢索,而數(shù)字圖書(shū)館除此之外,同時(shí)兼顧對(duì)數(shù)字圖書(shū)館各個(gè)資源庫(kù)的檢索。

      2.2功能

      數(shù)字圖書(shū)館檢索工具能夠配合人工標(biāo)引方式,對(duì)網(wǎng)絡(luò)信息資源進(jìn)行標(biāo)引和組織,面向用戶(hù)提供網(wǎng)絡(luò)信息資源和數(shù)字圖書(shū)館信息資源庫(kù)的檢索服務(wù)。

      2.2.1網(wǎng)絡(luò)信息搜集功能

      面對(duì)整個(gè)英特網(wǎng)信息資源,數(shù)字圖書(shū)館檢索工具利用搜索軟件自動(dòng)搜集網(wǎng)絡(luò)信息,結(jié)合人工方式進(jìn)行標(biāo)引,按照人工編制的分類(lèi)目錄將被標(biāo)引的網(wǎng)絡(luò)信息收入網(wǎng)絡(luò)信息資源庫(kù)。

      2.2.2檢索功能

      (1)跨庫(kù)檢索功能

      數(shù)字圖書(shū)館檢索工具提供跨庫(kù)檢索功能,用戶(hù)在使用過(guò)程中可以選定多個(gè)資源庫(kù)進(jìn)行檢索,在重新選擇數(shù)據(jù)庫(kù)時(shí),還可以保存以前的檢索式用于新的資源庫(kù)的檢索中。

      (2)支持全文檢索

      數(shù)字圖書(shū)館檢索工具的對(duì)網(wǎng)絡(luò)信息資源進(jìn)行搜集時(shí),每遇到一個(gè)網(wǎng)站時(shí),會(huì)將該網(wǎng)站上所有的網(wǎng)頁(yè)全部獲取下來(lái),將其內(nèi)容標(biāo)引后收入到網(wǎng)絡(luò)信息資源標(biāo)引庫(kù)中,只要用戶(hù)輸入查詢(xún)的關(guān)鍵字在用戶(hù)選定的網(wǎng)絡(luò)信息資源標(biāo)引庫(kù)或者其它數(shù)據(jù)庫(kù)中出現(xiàn),含有這個(gè)關(guān)鍵字的記錄就會(huì)作為匹配結(jié)果返回給用戶(hù)。

      (3)提供多途徑檢索

      支持自然語(yǔ)言、關(guān)鍵詞、主題詞三種檢索語(yǔ)言,當(dāng)用戶(hù)輸入一個(gè)短語(yǔ)時(shí),系統(tǒng)根據(jù)禁用此詞表過(guò)濾掉禁用詞,將有檢索意義的詞保留下來(lái)重新構(gòu)筑檢索式。

      提供高級(jí)檢索界面,支持布爾邏輯運(yùn)算,支持特征字段檢索(如題名、作者、摘要、來(lái)源、年代等等),支持權(quán)重檢索和相鄰檢索。

      (4)支持目錄式分類(lèi)結(jié)構(gòu)

      分類(lèi)目錄具有類(lèi)聚功能,尤其對(duì)于非專(zhuān)業(yè)用戶(hù)能起引導(dǎo)作用。數(shù)字圖書(shū)館的分類(lèi)目錄與以yahoo等商業(yè)門(mén)戶(hù)網(wǎng)站的區(qū)別在于,它需要涵蓋的范圍更廣,除了網(wǎng)絡(luò)資源,還有數(shù)字圖書(shū)館收藏的數(shù)字化資源。

      (5)支持多媒體信息檢索

      在能夠提供檢索的資源類(lèi)型上,不僅能夠提供文本信息資源檢索服務(wù),對(duì)于圖像、聲頻、視頻等多媒體信息也能提供檢索服務(wù)。

      2.2.3結(jié)果顯示功能

      (1)支持檢索結(jié)果排序

      在檢索結(jié)果排序方面,不僅能按時(shí)間排序,而且用戶(hù)可以選擇相關(guān)性排序。所謂相關(guān)性排序,是指進(jìn)行自然語(yǔ)言檢索時(shí),其檢索結(jié)果集由包含提問(wèn)式中任意詞的記錄組成,以包含提問(wèn)式中檢索詞的多少作為相關(guān)性指標(biāo)對(duì)檢索結(jié)果進(jìn)行排序,提問(wèn)式中的詞在文章中出現(xiàn)的越多表明它與檢索要求越接近,在顯示時(shí)就排在最前面。

      (2)提供統(tǒng)一的顯示格式

      檢索結(jié)果的著錄格式清晰明了,系統(tǒng)使用統(tǒng)一界面,對(duì)檢索結(jié)果采用按類(lèi)別、分層次顯示方式。系統(tǒng)雖然對(duì)用戶(hù)選定的數(shù)據(jù)庫(kù)采用跨庫(kù)檢索方式,但是在結(jié)果顯示時(shí)候還是分?jǐn)?shù)據(jù)庫(kù)類(lèi)型一一列出匹配記錄的提錄或摘要信息,用戶(hù)在瀏覽題錄后,在進(jìn)一步選擇是否需要全文。

      (3)提供超文本鏈接

      在顯示結(jié)果中,對(duì)摘要或全文中出現(xiàn)的某一些主題詞提供鏈接點(diǎn),比如人名“楊振寧”、機(jī)構(gòu)名“CNNIC中國(guó)互聯(lián)網(wǎng)信息中心”、專(zhuān)業(yè)術(shù)語(yǔ)“后控詞表”等等。

      2.3工作原理

      2.3.1信息搜集

      利用自動(dòng)搜索機(jī)(如Robot),自動(dòng)收集網(wǎng)頁(yè)上的元數(shù)據(jù)。首先,輸入起始網(wǎng)址,一般是一個(gè)網(wǎng)站的主頁(yè),搜索從這個(gè)網(wǎng)址開(kāi)始。另外,需要同時(shí)輸入一定的限制條件來(lái)限制搜索范圍,因?yàn)檎麄€(gè)網(wǎng)絡(luò)有成千上萬(wàn)個(gè)網(wǎng)址,如果不加任何約束,搜索幾乎是沒(méi)有盡頭的,并會(huì)耗盡機(jī)器的資源。所以,要通過(guò)IP過(guò)濾、限定從起始網(wǎng)址出發(fā)向下搜索的層次等方法來(lái)加以限制,如只在圖書(shū)館的內(nèi)部網(wǎng)、某一專(zhuān)業(yè)網(wǎng)站上等進(jìn)行搜索。工作時(shí),先從起始網(wǎng)址讀入此網(wǎng)頁(yè)的HTML源文件,并在其頭部搜索(meta)標(biāo)簽內(nèi)的元數(shù)據(jù),如果發(fā)現(xiàn)有符合都柏林核心集的定義和格式,則再檢查此網(wǎng)頁(yè)的元數(shù)據(jù)是否已在前次搜索中存入數(shù)據(jù)庫(kù),如是,則用新的元數(shù)據(jù)覆蓋現(xiàn)在的元數(shù)據(jù),否則在數(shù)據(jù)庫(kù)中加入新的網(wǎng)址和元數(shù)據(jù)。接著,找出該網(wǎng)頁(yè)上所有的鏈接地址,將它們按順序存入一個(gè)先進(jìn)先出地址隊(duì)列的末尾,下一個(gè)循環(huán)開(kāi)始后,從地址頭取出一個(gè)網(wǎng)址,如它符合限制條件,且和已搜索過(guò)的網(wǎng)址不重復(fù),則再次開(kāi)始搜索此網(wǎng)頁(yè)的元數(shù)據(jù)和鏈接地址,否則,跳過(guò)此網(wǎng)址,從地址隊(duì)列中取出下一個(gè)網(wǎng)址。整個(gè)過(guò)程周而復(fù)始,直到地址隊(duì)列中所有的網(wǎng)址都被搜索一遍。

      網(wǎng)址的收集和處理由機(jī)器自動(dòng)完成,但必須由人工最后審定。為此必須有一個(gè)明確的選擇標(biāo)準(zhǔn)和策略,任何可以訪問(wèn)的可靠的數(shù)據(jù)源都在選擇范圍之內(nèi)。更新及時(shí),發(fā)現(xiàn)題目或標(biāo)題有所改動(dòng),就應(yīng)該進(jìn)行更新。同時(shí),對(duì)其它有關(guān)信息資源(如網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、書(shū)刊目錄信息等)進(jìn)行收集,最終建立一個(gè)以學(xué)術(shù)信息為主的檢索工具,這也是數(shù)字圖書(shū)館區(qū)別與商業(yè)門(mén)戶(hù)網(wǎng)站的地方。

      2.3.2索引和檢索

      因特網(wǎng)的所有網(wǎng)頁(yè)都在被索引范圍之內(nèi)。應(yīng)用搜索引擎技術(shù)分析網(wǎng)頁(yè)中所有句子以確定關(guān)鍵詞,這些關(guān)鍵詞將與某一詞表相兼容,并形成一個(gè)后控詞表。摘要將由關(guān)鍵詞所涉及的網(wǎng)頁(yè)內(nèi)容組成。同時(shí),索引人員將對(duì)記錄進(jìn)行審查,以確定其是否符合選擇標(biāo)準(zhǔn),所有關(guān)鍵詞和所做摘要是否恰當(dāng),后控詞表是否得到正確應(yīng)用。然后這條記錄才被增加到網(wǎng)絡(luò)信息資源庫(kù)中去。在檢索過(guò)程中,檢索工具對(duì)符合檢索策略的命中記錄做出標(biāo)記,顯示檢索結(jié)果。

      本文基于網(wǎng)絡(luò)搜索引擎技術(shù),提出建立數(shù)字圖書(shū)館檢索工具的設(shè)想。檢索工具的實(shí)現(xiàn)除了需要技術(shù)支持外,還需要信息量豐富的資源庫(kù)和合理的圖書(shū)館的結(jié)構(gòu)模型作為支撐。開(kāi)發(fā)數(shù)字圖書(shū)館的結(jié)構(gòu)模型時(shí),必須堅(jiān)持該結(jié)構(gòu)具有良好的

      兼容性、。公共性、靈活性和可擴(kuò)展性,能夠方便地將各供應(yīng)商開(kāi)發(fā)的應(yīng)用程序(如搜索引擎技術(shù))集成進(jìn)來(lái)。數(shù)字圖書(shū)館結(jié)構(gòu)模型在堅(jiān)持上述原則的同時(shí),主要目標(biāo)是為網(wǎng)絡(luò)環(huán)境下信息資源的發(fā)現(xiàn)、描述、組織、查詢(xún)、檢索和為以網(wǎng)絡(luò)為依托的知識(shí)、信息交流,提供一個(gè)支撐結(jié)構(gòu)和環(huán)境,這首先需要解決異構(gòu)系統(tǒng)間的互操作、各種轉(zhuǎn)換和翻譯(不同規(guī)范的元數(shù)據(jù)、查詢(xún)請(qǐng)求之間)等技術(shù)問(wèn)題。對(duì)于這方面的研究還有待進(jìn)一步深入。

      【參考文獻(xiàn)】

      4韓慧琴,劉柏嵩.數(shù)字圖書(shū)館中的知識(shí)發(fā)現(xiàn).情報(bào)學(xué)報(bào),2001(3)

      5中文搜索引擎核心技術(shù)之爭(zhēng).黃海.圖書(shū)館雜志,2001(3)

      8網(wǎng)絡(luò)檢索工具的比較研究.段其憲,時(shí)永梅.情報(bào)科學(xué),2001(6)

      9搜索引擎的功能概述與研究熱點(diǎn).徐亞先.情報(bào)科學(xué),2001(3)

      文檔上傳者

      相關(guān)期刊

      數(shù)字財(cái)富

      部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

      中華人民共和國(guó)信息產(chǎn)業(yè)部

      數(shù)字生活

      部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

      中華人民共和國(guó)信息產(chǎn)業(yè)部

      數(shù)字傳媒研究

      省級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

      內(nèi)蒙古自治區(qū)新聞出版廣電局

      亚洲国产精品成人精品无码区 | 亚洲AV无码久久| 亚洲成A∨人片天堂网无码| 亚洲丶国产丶欧美一区二区三区| 亚洲av乱码一区二区三区香蕉| 久久亚洲AV成人出白浆无码国产| 亚洲AV午夜成人片| 亚洲AV无码乱码国产麻豆| 久久精品7亚洲午夜a| 久久久久亚洲AV无码专区首| 久久亚洲国产成人亚| 亚洲AV无码1区2区久久| 久久精品视频亚洲| 中文字幕亚洲免费无线观看日本| 91精品国产亚洲爽啪在线观看| 中文字幕亚洲精品资源网| 亚洲国产精品一区二区久| 亚洲入口无毒网址你懂的| 亚洲性色精品一区二区在线| 亚洲高清国产拍精品熟女| 国产亚洲视频在线| 亚洲性在线看高清h片| 亚洲综合日韩久久成人AV| 亚洲AV无码一区东京热久久| 亚洲午夜在线电影| 亚洲美女视频网站| 亚洲第一成人在线| 亚洲AV无码XXX麻豆艾秋| 亚洲A丁香五香天堂网| 激情97综合亚洲色婷婷五| 亚洲第一AV网站| 亚洲第一页在线视频| 国产亚洲国产bv网站在线| 亚洲成a人无码亚洲成www牛牛 | 国产亚洲综合一区柠檬导航| 亚洲国产一区在线| 亚洲国产片在线观看| 亚洲精品理论电影在线观看 | 精品亚洲成a人片在线观看| 亚洲精品亚洲人成在线播放| 亚洲av成人一区二区三区观看在线 |