前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇搜索引擎研究范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關鍵詞:SEO;搜索引擎優(yōu)化;網(wǎng)絡營銷
一、搜索引擎優(yōu)化概述
SEO是Search Engine Optimization的縮寫,翻譯成中文就是搜索引擎優(yōu)化,是通過研究搜索引擎的搜索規(guī)則來提高網(wǎng)站在搜索結(jié)果頁面排名的方法。SEO的主要工作分為內(nèi)部優(yōu)化和外部優(yōu)化,內(nèi)部優(yōu)化指對網(wǎng)頁基本要素進行調(diào)整,外部優(yōu)化指如何增加網(wǎng)站外部鏈接,總之優(yōu)化的最終目的就是提高網(wǎng)站訪問量,提升網(wǎng)站宣傳能力。
二、搜索引擎工作原理
研究搜索引擎優(yōu)化實際上就是對搜索引擎工作過程的逆向推理,因此,學習搜索引擎優(yōu)化首先要了解搜索引擎的工作原理。搜索引擎主要包括全文搜索引擎(百度、Google),目錄搜索引擎,元搜索引擎三大類。這里主要介紹全文搜索引擎的工作原理。
搜索引擎的主要工作包括:頁面收錄、頁面分析、頁面排序及關鍵字查詢。頁面收錄就是指搜索引擎在互聯(lián)網(wǎng)中進行數(shù)據(jù)采集,然后將采集到的數(shù)據(jù)存放到自己的數(shù)據(jù)庫中,這是搜索引擎最基礎的工作。搜索引擎是根據(jù)頁面的URL地址找到網(wǎng)頁,然后利用蜘蛛程序抓取網(wǎng)頁。頁面分析指搜索引擎對收錄的頁面將進行一系列的分析、處理,主要包括:過濾標簽提取網(wǎng)頁正文信息,對正文信息進行切詞處理,建立關鍵字與頁面間的索引等,為用戶的查詢做好準備。用戶向搜索引擎提交關鍵字查詢信息后,通常會返回多個結(jié)果頁面,決定頁面排序的主要因素包括頁面相關性和鏈接權(quán)重,做優(yōu)化工作的主要任務也就是想辦法提高頁面的相關性和鏈接權(quán)重,頁面相關項性主要由關鍵字匹配度、關鍵字密度、關鍵字分布及權(quán)重標簽等決定,鏈接權(quán)重包括內(nèi)部鏈接權(quán)重和外部鏈接權(quán)重,其中外部鏈接權(quán)重影響較大。最后就是用戶進行關鍵字查詢。
三、網(wǎng)站優(yōu)化實施
在說網(wǎng)站優(yōu)化實施方案之前,先說一下搜索引擎優(yōu)化的宗旨:SEO工作應該以用戶為中心,圍繞提高用戶體驗、完善網(wǎng)站功能而進行,不能為了優(yōu)化而優(yōu)化。也就是說在對網(wǎng)站優(yōu)化時應該以滿足用戶需求為根本出發(fā)點,而不要采用一些欺騙搜索引擎的手段以達到提高網(wǎng)站排名的目的。
四、網(wǎng)站結(jié)構(gòu)優(yōu)化
網(wǎng)站結(jié)構(gòu)包括物理結(jié)構(gòu)及邏輯結(jié)構(gòu)。物理結(jié)構(gòu)是由頁面的真實存儲位置決定的結(jié)構(gòu),反映的是頁面的存儲層次。邏輯結(jié)構(gòu)是指由頁面間的鏈接關系所決定的結(jié)構(gòu),它反映的是頁面間的鏈接層次關系。網(wǎng)站結(jié)構(gòu)優(yōu)化主要包括物理結(jié)構(gòu)優(yōu)化和邏輯結(jié)構(gòu)優(yōu)化。
網(wǎng)站物理結(jié)構(gòu)優(yōu)化主要是指規(guī)劃合理的站點結(jié)構(gòu),盡可能減小目錄深度,一般目錄深度一般不超過4層,目錄深度較小的頁面不管對于搜索引擎還是普通用戶都是有好處的,因而能得到更多的權(quán)重。也可以通過一些技術(shù)手段解決URL長度的問題,如URL重寫,但此時URL就不能反映頁面的真實存儲位置。
網(wǎng)站邏輯結(jié)構(gòu)優(yōu)化主要是建立合理的導航結(jié)構(gòu),減少頁面間的鏈接深度。只有具有清晰合理的網(wǎng)站導航結(jié)構(gòu),才能盡可能多地收錄網(wǎng)站的頁面和收錄更深層次的頁面。鏈接深度是指從源頁面到達目標頁面所經(jīng)過的路徑數(shù)。鏈接深度越小被搜索引擎抓取的幾率就越大。減小鏈接深度可以采用以下方法:盡可能把重要頁面的鏈接和欄目放置到首頁;把第二、三層的欄目標題抽取到首頁;建立網(wǎng)站地圖頁面,并提交給搜索引擎。
鏈接優(yōu)化。鏈接分為內(nèi)部鏈接和外部鏈接,是決定頁面權(quán)重的重要因素。內(nèi)部鏈接與外部鏈接相比外部鏈接對頁面權(quán)重的影響更大一些。鏈接優(yōu)化首先是鏈接對象的選擇,鏈接對象會影響頁面的相關性,在這方面影響最大的是文本,其次是圖片,最小的是對媒體文件。也就是說超鏈接對象最好采用文本格式,且文本內(nèi)容最好使用與頁面主題相關的關鍵字和權(quán)重標簽,如果使用圖片做超鏈接,必須設置圖片的alt屬性來表達主題。
內(nèi)部鏈接優(yōu)化主要是建立強大有序的內(nèi)部鏈接,讓網(wǎng)站所有頁面互相連通,還有一點就是保證網(wǎng)站中重要頁面能得到更多的鏈接,只有這樣才能提高搜索引擎對網(wǎng)站的收錄。外部鏈接優(yōu)化是搜索引擎優(yōu)化的一項重要工作,主要指如何增加網(wǎng)站的外部鏈接數(shù)量。增加外部鏈接的主要方法有:登陸分類目錄、交換鏈接和使用鏈接誘餌等。登陸分類目錄時注意不要登陸一些低質(zhì)量的分類目錄,網(wǎng)站因此可能會受到懲罰。交換鏈接時注意網(wǎng)站主題相關性、網(wǎng)站質(zhì)量、導出鏈接的數(shù)量,主題越相關,網(wǎng)站質(zhì)量越高,導出鏈接數(shù)量越少網(wǎng)站能得到更多的權(quán)重。鏈接誘餌主要包括軟文、廣告和共享軟件。
關鍵字優(yōu)化。搜索引擎是以關鍵詞為搜索條件進行檢索的,關鍵字優(yōu)化主要目的就是提高頁面和關鍵字的相關性。關鍵字優(yōu)化首先就是要尋找與頁面主題相關的關鍵字,優(yōu)先選擇那些符合大部分用戶搜索習慣的關鍵字,然后,就是對關鍵字的搜索量、商業(yè)價值、競爭程度進行評估,從中篩選出高搜索量、高相關性、低競爭的關鍵字。關鍵字在網(wǎng)頁中出現(xiàn)的位置可謂無處不在,主要包括:title標題、meta標簽、網(wǎng)頁正文、url路徑、alt屬性等,關鍵字的密度控制在2%-8%的范圍內(nèi)比較合理。
五、總結(jié)
隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎優(yōu)化會得到越來越廣泛的引用。學習SEO其實并不難,但也不是一時就能學會的,學習SEO首先要學會多思考,多角度、多層面的去思考,去分析自己的網(wǎng)站;其次就是多實踐,積累經(jīng)驗;當然還有最重要,也是最基礎的一項內(nèi)容,就是掌握SEO的基礎知識。
參考文獻:
1、吳澤欣.搜索引擎優(yōu)化入門與進階[M].人民郵電出版社,2008.
關鍵詞:搜索引擎;信息檢索;互聯(lián)網(wǎng);網(wǎng)絡信息量
中圖分類號:TP393
文獻標識碼:A
文章編號:1004―373X(2008)04―074―04
伴隨著互聯(lián)網(wǎng)的爆炸性發(fā)展,網(wǎng)絡用戶想找到所需的資料如同大海撈針,為了滿足人們信息檢索需求,專業(yè)搜索網(wǎng)站應運而生了。搜索引擎(search engine)是一個信息處理系統(tǒng),他以一定的策略在互聯(lián)網(wǎng)中搜集信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的,從用戶的角度來看,他就是一個幫助人們進行信息檢索的工具。搜索引擎以傳統(tǒng)信息檢索技術(shù)的索引模型、匹配策略等技術(shù)為基礎,涉及數(shù)據(jù)庫、信息檢索、人工智能、統(tǒng)計數(shù)據(jù)分析、數(shù)據(jù)挖掘、計算機網(wǎng)絡等諸多領域的理論和技術(shù)。
本文回顧了搜索引擎發(fā)展的簡史,介紹他的分類和關鍵技術(shù),并對中文搜索引擎各組成部分進行分析,最后指出了中文搜索引擎的發(fā)展趨勢。
1 搜索引擎的發(fā)展、分類和性能指標
1.1發(fā)展簡史
1990年由蒙特利爾的大學生Alan Emtage等人發(fā)明的Archie是搜索引擎始祖,他依靠腳本程序自動搜索網(wǎng)上的文件,然后對有關信息進行索引,供使用者以一定的表達式查詢。后來,一些開發(fā)機器人(Robot)程序的編程者提出了設想:既然所有網(wǎng)頁都可能有指向其他網(wǎng)站的鏈接,那么從跟蹤一個網(wǎng)站的鏈接開始,就有可能檢索整個互聯(lián)網(wǎng)。最早現(xiàn)代意義上的搜索引擎出現(xiàn)于1994年7月,當時Michael Mauldin將John Leavitt的Robot程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的Lycos。同年4月,斯坦福大學的David Filo和楊致遠共同創(chuàng)辦了超級目錄索引Yahoo,并成功地使搜索引擎的概念深入人心,Yahoo也被稱為第一代搜索引擎,從此搜索引擎的發(fā)展進入了黃金時代。1998年9月,同樣是Stanford大學兩位博士生Larry Page和Sergey Brin成功開發(fā)了新一代搜索引擎一一Google,具有比Yahoo使用的技術(shù)更快、更準確的特點,被視為第二代搜索引擎的代表。隨著互聯(lián)網(wǎng)規(guī)模的急劇膨脹,搜索引擎之間也開始出現(xiàn)了分工協(xié)作,并有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務提供商。
1.2搜索引擎的類別
根據(jù)搜索引擎的系統(tǒng)結(jié)構(gòu)、信息搜集方法、服務提供方式的區(qū)別,搜索引擎分為以下類別:
(1)機器人搜索引擎:機器人是指某個不斷重復執(zhí)行某項任務的自動程序,基于機器人的搜索引擎多提供對全文的檢索,有時也叫作全文搜索引擎。機器人程序以某種策略對Internet進行定期搜索,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,他會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫,由索引器建立索引。對用戶查詢則由檢索器檢索索引庫,最后將查詢結(jié)果返回給用戶。該類搜索引擎的優(yōu)點是信息量大、更新及時、不需人工干預;缺點是返回信息量大,且有很多無關信息,用戶必須從結(jié)果中進行篩選。Google、百度就是這類搜索引擎的代表。
(2)目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息按照主題分成若干個大類,每個大類再依次細分,使信息形成按主題分類和組織的樹型結(jié)構(gòu)。信息大多面向網(wǎng)站,提供目錄瀏覽服務和直接檢索服務。由于目錄式搜索引擎的信息分類有人的參與,因此其搜索的準確度是相當高的,缺點是人工維護、信息量少、信息更新慢。典型代表是:Yahoo(現(xiàn)已采用Robot技術(shù))、LookSmart等
(3)元搜索引擎:這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請求向多個的獨立搜索引擎遞交,再對返回的結(jié)果進行重復排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。優(yōu)點是返回結(jié)果的信息量更大、更全,缺點是用戶需要做更多的篩選。元搜索引擎的搜索效果始終不理想,目前還沒有任何一個元搜索引擎取得強勢地位。
1.3搜索引擎的性能指標
搜索引擎性能評價既要參考傳統(tǒng)型文獻檢索工具的質(zhì)量評價標準,如:信息組織加工及檢索服務提供方式等,又要立足于用戶的立場,即能滿足大多數(shù)網(wǎng)絡用戶要求的搜索引擎就是一個好的搜索引擎。
在通常情況下,我們可以從以下幾個方面來衡量一個搜索引擎的性能:
查全率 指搜索引擎提供的檢索結(jié)果中相關文檔數(shù)與網(wǎng)絡中存在的相關文檔數(shù)之比,他是搜索引擎對網(wǎng)絡信息覆蓋率的真實反映。
查準率 是搜索引擎提供的檢索結(jié)果與用戶信息需求的匹配程度,也是檢索結(jié)果中有效文檔數(shù)與搜索引擎提供的全部文檔數(shù)之比。
響應時間 一般而言取決于2個因素,即與帶寬有關的網(wǎng)絡速度和搜索引擎本身的速度,只有在二者均獲得可靠的技術(shù)支持的情況下,才能保證理想的檢索速度。對搜索引擎來講,查全率和查準率很難做到兩全其美,影響搜索引擎的性能的主要是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結(jié)果的排序方法和用戶進行相關度反饋的機制。
2 搜索引擎系統(tǒng)架構(gòu)和關鍵技術(shù)
搜索引擎一般由搜索器、分析器、索引器、檢索器和用戶接口等5大部分組成,其工作原理如圖1所示:
2.1搜索器
搜索器是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁的計算機程序,他從網(wǎng)站的某一個頁面開始,讀取網(wǎng)頁的內(nèi)容,找到網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁。在搜索器實現(xiàn)時,系統(tǒng)中維護一個超鏈隊列,其中包含一些起始URL,搜索器從這些URL出發(fā),下載相應的頁面,并從中抽取出新的超鏈加入隊列中,上述過程不斷重復直到隊列為空。為提高效率,搜索引擎還將Web空間按照域名、IP地址或國家域名進行劃分,使用多個搜索器并行工作,讓每個搜索器負責一個子空間的搜索。由于互聯(lián)網(wǎng)上的信息太多,因此搜索器必須采用一定的搜索策略對互聯(lián)網(wǎng)進行遍歷并下載文檔搜索器,目前一般采用以廣度優(yōu)先搜索策略為主、線性搜索策略為輔的搜索策略。搜索器主要的搜索策略有:
線性搜索策略 線形搜索策略的基本思想是從一個起始的IP地址出發(fā),按IP地址遞增的方式搜索后續(xù)的每一個IP地址中的信息,完全不考慮各站點的HTML文件中含有的超鏈地址。該策略只適用于小范圍的全面搜索,可以發(fā)現(xiàn)被引用較少的新HTML文件信息源。
廣度優(yōu)先搜索策略廣度優(yōu)先搜索策略是先抓取起始 網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。廣度優(yōu)先搜索策略容易實現(xiàn)并被廣泛采用,但是需要花費較長時間才能到達深層的Web文件。
深度優(yōu)先搜索策略 深度優(yōu)先搜索策略是早期開發(fā)搜索器使用較多的一種方法,他順著HTML文件上的超鏈走到不能再深入為止,然后返回到上一個結(jié)點的HT―ML文件,再繼續(xù)選擇該HTML文件中的其他超鏈。深度優(yōu)先搜索適宜遍歷一個指定的站點,但不適合于搜索相當深的Web結(jié)構(gòu)。
2.2 分析器
分析器對搜索器找到的網(wǎng)頁信息進行分析,以便建立索引。其分析技術(shù)包括:分詞、過濾、轉(zhuǎn)換等。通常選用“詞”作為文本特征的元數(shù)據(jù),在分詞時,大部分系統(tǒng)從全文中抽取詞條,也有部分系統(tǒng)只從文檔的某些部分(如標題等)抽取詞條。中文句子的詞語間沒有固定分隔符、漢語語義及結(jié)構(gòu)的復雜性給中文分詞帶來極大困難。
2.3 索引器
索引器的功能是對搜索器所搜索的信息進行分析處理,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。索引項有元數(shù)據(jù)索引項和內(nèi)容索引項2種,元數(shù)據(jù)索引項與文檔的語意內(nèi)容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度等。內(nèi)容索引項可以分為單索引項和多索引項(或稱短語索引項)2種,用來反映文檔內(nèi)容,如:關鍵詞及其權(quán)重、短語、單字等。為了快速查找到特定的信息,必須將文檔表示為一種便于檢索的方式并存儲在索引數(shù)據(jù)庫中。索引數(shù)據(jù)庫的格式是一種依賴于索引機制和算法的特殊數(shù)據(jù)存儲格式,一個好的索引模型應該易于實現(xiàn)和維護、檢索速度快、空間需求低。搜索引擎普遍借鑒了傳統(tǒng)信息檢索中的索引模型,包括倒排文檔、矢量空間模型、概率模型等。索引器的輸出是索引表,他記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰或接近關系,索引表一般使用倒排形式,即由索引項查找相應的文檔。索引器可以使用集中式索引算法或分布式索引算法。一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。
2.4檢索器
檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關性反饋機制。常用的檢索方法有以下幾種:基于關鍵詞的檢索;基于概念的檢索;基于內(nèi)容的檢索。
如在矢量空間索引模型中,用戶查詢q首先被表示為一個范化矢量V(q)=(t1,w1(q);…;t,wi(q);…;tn,w。(q))。然后按照某種方法來計算用戶查詢與索引數(shù)據(jù)庫中每個文檔之間的相關度,而相關度可以表示為查詢矢量v(q)與文檔矢量v(d)之間的夾角余弦,最后將相關度大于閥值的所有文檔按照相關度遞減的順序排列并返還給用戶。
2.5 用戶接口
用戶接口的作用是為用戶提供可視化的查詢輸入和結(jié)果輸出界面,方便用戶輸入查詢條件、顯示查詢結(jié)果、提供用戶相關性反饋機制等。用戶接口的設計和實現(xiàn)必須基于人機交互的理論和方法,以適應人類的思維和使用習慣。在查詢界面中,用戶按照搜索引擎的查詢語法制定待檢索詞條及各種簡單或高級檢索條件。在查詢輸出界面中,搜索引擎將檢索結(jié)果展現(xiàn)為一個線性的文檔列表,其中包含了文檔的標題、摘要、快照和超鏈等信息,用戶需要逐個瀏覽以找出所需文檔。目前一些公司和機構(gòu)正在考慮制定查詢選項的標準。
2.6檢索結(jié)果排序
對于某個檢索項,通常會返回大量的查詢結(jié)果列表,其中混雜著大量的不相關文檔,為了提高查詢效率,搜索引擎要對檢索結(jié)果進行相應排序。
(1)基于內(nèi)容的相關度排序:考慮用戶所查詢的詞條在文檔中的出現(xiàn)情況,包括詞條頻率,逆文檔頻率,詞條位置等因素,根據(jù)文檔相關度決定其在檢索結(jié)果集中的位置。
(2)基于超鏈的相關度排序:考慮一個頁面被其他站點引用的次數(shù),這基本上反映了該頁面的重要性,超鏈的標記:艾本也對鏈宿頁面起到概括作用。斯坦福大學研究開發(fā)的PageRank算法,不僅考慮Web頁上的標題或文本,還考慮與之相連接的其他網(wǎng)站,通過為Web頁面構(gòu)造引用圖,綜合頁面的被引用次數(shù),以及鏈源頁面的重要性來判斷鏈宿頁面的重要性,能夠查詢與用戶請求相關的“權(quán)威”頁面。
(3)檢索結(jié)果的聯(lián)機聚類:用戶查詢相關的文檔通常會聚類的比較近,而遠離與查詢無關的文檔。因此可利用聚類技術(shù)將結(jié)果文檔集合分成若干組,同一組的文檔內(nèi)容相似度盡可能地大,組間相似度盡可能地小,用戶只需考慮他所選擇的文檔所在的組。
(4)推測用戶最終目的:通過各種技術(shù)推測用戶沒有在查詢語句中表達出來的查詢目的,如使用智能跟蹤用戶檢索行為,分析用戶模型,通過同類用戶的行為記錄推薦相關頁面;使用相關度反饋機制,通過對查詢請求的不斷修正以提高系統(tǒng)搜索結(jié)果的精確度等。
3 中文分詞技術(shù)
中文自動分詞是網(wǎng)頁分析的基礎。在網(wǎng)頁分析的過程中,中文與英文的處理方式不同,這是因為中文信息與英文信息有一個明顯的差別:英文單詞之間有空格,而中文文本中詞與詞之間沒有分割符。這就要求在對中文網(wǎng)頁進行分析之前,先要將網(wǎng)頁中的句子切割成一個個的詞的序列,這就是中文分詞。中文自動分詞涉及到許多自然語言處理技術(shù)和評價標準,在搜索引擎中,主要關心中文自動分詞的速度和準確度。現(xiàn)有的分詞算法可分為3大類:基于分詞詞典的機械分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。
(1)基于分詞詞典的機械分詞方法:這種方法是按照一定的策略將要分析的漢字串與詞典中的詞條進行匹配,是比較成熟的技術(shù),又叫做機械分詞方法。按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照是否與詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。常用的幾種機械分詞方法如下:正向最大匹配法(由左到右的方向);逆向最大匹配法(由右到左的方向);最少切分(使每一句中切出的詞數(shù)最小)。實際使用的分詞工具,只是把機械分詞作為一種初分手段,此外還要利用各種其他的語言信息來提高切分的準確率。例如一種方法是特征掃描(或標志切分),首先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進行機械分詞,從而減少匹配的錯誤率。
(2)基于理解的分詞方法:這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。他通常包括3個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、控制部分。在控制部分的協(xié)調(diào) 下,分詞子系統(tǒng)可以獲得有關詞句的句法和語義信息來對分詞歧義進行判斷,即他模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復雜性,目前基于理解的分詞系統(tǒng)還處在試驗階段。
(3)基于統(tǒng)計的分詞方法:這種方法是對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因此也稱為無詞典分詞方法。從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算他們的互現(xiàn)信息。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關系的緊密程度,當緊密程度高于某一個閾值時,便可認為這些字的組合可能構(gòu)成了一個詞。但該方法時空開銷比較大,而且經(jīng)常把不是詞的常用字組當成詞,例如“我的”、“之一”等。在搜索引擎領域的實際應用中,一般將機械分詞方法與統(tǒng)計分詞方法相結(jié)合,先進行串匹配分詞,然后使用統(tǒng)計方法識別一些未登錄的新詞,這樣既發(fā)揮了匹配分詞速度快、效率高的優(yōu)勢,又利用了統(tǒng)計分詞中新詞自動識別和自動消除分詞歧義的特點。
分詞詞典是影響中文自動分詞的一個重要因素,其規(guī)模一般在6萬條詞左右,若辭典過大,則歧義現(xiàn)象將大大增加;而辭典過小,有些詞切分不出來,同樣影響分詞的精度。因此,分詞詞典中詞條的選擇是非常嚴格的。對于不斷出現(xiàn)新詞的網(wǎng)絡領域,僅使用6萬條詞左右的分詞詞典是不夠的,但隨意向分詞詞典中加入新詞將導致分詞精度下降,一般的解決方法是使用輔助詞典,其規(guī)模在50萬詞條左右。另外,中文自動分詞的難點在于未登錄詞的識別和分詞歧義的處理,如何處理這兩個問題一直是該領域研究的熱點。
4 搜索引擎的技術(shù)熱點與發(fā)展趨勢
隨著互聯(lián)網(wǎng)的發(fā)展,針對基于關鍵詞搜索引擎所存在的不足,各搜索引擎網(wǎng)站紛紛向智能化、個性化方面發(fā)展,出現(xiàn)了值得關注的技術(shù)熱點。
4.1 多媒體搜索技術(shù)
可用于網(wǎng)絡檢索的多媒體信息的內(nèi)容特征大致包括:圖像的顏色、紋理、形狀等;聲音的音頻、響度、頻度和音色等;影像的視頻特征、運動特征等。這種類型的搜索引擎還不多見,并且主要用于圖像檢索,如QBIC、WeebSeek、ImageRover等。目前的多媒體搜索引擎覆蓋面小,檢索功能不夠完善,效果也不太理想,因此,多媒體搜索技術(shù)尤其是音頻、視頻數(shù)據(jù)的檢索仍是搜索引擎的一個研究重點。
4.2 用戶行為分析
現(xiàn)在的搜索引擎是以關鍵字作為表達查詢的主要手段的,以按相關度大小排列的文獻列表為展示方式,任何人搜索同一個詞都會得到同樣的結(jié)果。為了克服千人一面的不足,人們逐步引入了一些個性化的技術(shù),包括對查詢輸入的修正,查詢結(jié)果的聚類等。但是,到目前為止,查詢輸入的主要方式還是關鍵字,查詢輸出的主要也還是文本列表。如何為用戶的學習和工作營造一個個性化的信息空間,是未來搜索引擎應該追求的方向。
4.3智能檢索技術(shù)
智能檢索主要包括自然語言處理、個性化搜索等技術(shù)。自然語言理解是計算機科學中的一個引人入勝的、富有挑戰(zhàn)性的課題。從計算機科學特別是從人工智能的觀點看,自然語言理解的任務是建立一種計算機模型,這種計算機模型能夠給出像人那樣理解、分析并回答自然語言。以自然語言理解技術(shù)為基礎的新一代搜索引擎,稱之為智能搜索引擎。由于他將信息檢索從目前基于關鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識別以及機器翻譯技術(shù)等。因而這種搜索引擎具有信息服務的智能化、人性化特征,允許網(wǎng)民采用自然語言進行信息的檢索,為他們提供更方便、更確切的搜索服務。
4.4 P2P搜索技術(shù)
目前的互聯(lián)網(wǎng)是以服務器為中心的,人們向服務器發(fā)送請求,然后瀏覽服務器回應的信息,而對等搜索技術(shù)P2P(Peer to Peer)將以用戶為中心,所有的用戶都是平等的伙伴,用戶可以通過P2P共享硬盤上的文件、目錄甚至整個硬盤。把這一理念具體運用到搜索引擎技術(shù)上來,P2P將使用戶能夠深度搜索文檔,而且這種搜索無須通過Web服務器,也可以不受文檔格式和宿主設備的限制,具有傳統(tǒng)搜索引擎無可比擬優(yōu)勢。P2P網(wǎng)絡的一個很大的問題在于搜索信息時所產(chǎn)生的網(wǎng)絡通信量非常巨大,在時間和網(wǎng)絡資源方面造成很大的浪費。為方便P2P網(wǎng)絡中的信息檢索,有關專家提出3種建立在特征文件基礎上的檢索機制:對語義路由進行詳細分析,提出了一個建立在此技術(shù)和RDF技術(shù)基礎上的新方法。
【關鍵詞】 Google GFS MapReduce BigTable
1 google要解決的問題
(1)WEB是非常巨大的,并且以指數(shù)級別在增長。
(2)Web中存在不同形式的資源:
Word,HTML,PDF,ASCII,Images
(3)檢索時間要極短不能讓用戶等待。
(4)各種民族各種語言不同,需要不同的分詞方法。
(5)系統(tǒng)能夠每天承受每天上億次的檢索。
(6)優(yōu)化結(jié)果的排序規(guī)則,把用戶最需要的信息展現(xiàn)在最前面。
2 Google的分布式設計結(jié)構(gòu)
Google的分布式設計是一項偉大的設計,它建立在上萬臺計算機上。面的上萬臺的復雜系統(tǒng)結(jié)構(gòu)Google在設計系統(tǒng)的開始就有一個假設:“機器是會出問題的。”“容許機器出問題,但機器必需自動跳過或自動修復這些問題。”如圖1所示,是一張Google分布式設計的基本結(jié)構(gòu)圖。
2.1 抓取部分
URL Server:存儲URL列表,這些URL都是將要被抓取的對象。
Crawler:一組進行并行檢索的爬蟲程序,每個爬蟲都有自己的DNS緩沖池,并且能夠在同一時間打開300個網(wǎng)絡連接。
Store Server:壓縮并且存儲爬蟲爬取來的網(wǎng)易。
Repository:包含每個網(wǎng)頁的全部信息,每個文檔都被標記為docID,length,URL。
Indexer:解壓縮文檔并且解析每個文檔,并把其中的連接存儲在Anchors中。
Anchors:專門存儲解析而來的新的連接。
URL Resolver:把相對路徑URL轉(zhuǎn)換為絕對路徑的URL。
其中,Repository是壓縮存儲的,壓縮率一般超過60%。
2.2 索引部分
URL Resover:將絕對路徑的URL映射為docID并且存儲在Doc Index中,將anchor text存儲到barrels。
Indexer:解析文檔,并且將倒排表分布到barrels中。
Barrels:存儲倒排表,并且對倒排表進行排序。
Lexicon:內(nèi)存中的hash表,左項為wordID,右項為指向其應倒排表的指針。
Sorter:創(chuàng)建倒排索引。
2.3 檢索部分
Barrels:包含兩種不同的Barrels。短的barrel只包含標題和連接的倒排表,長得barrel存儲全部內(nèi)容的倒排表。
Seacher:首先將用戶的搜索詞送入Lexicon,找到相應Barrel后,再在Barrel中進行檢索,如果檢索到,會返回docID,然后將這些docID送入Doc Index進行檢索,并得到最終的結(jié)果。
3 Google文件系統(tǒng)
每個操作系統(tǒng)都有自己的文件系統(tǒng),例如Windows下常見的FAT32,NTFS。Linux下的EXT2,EXT3.然而GFS(Google File System)是一種非常特殊可擴展的分布式文件系統(tǒng),適用于大型的,分布式的、對大量數(shù)據(jù)進行訪問的應用,它允許于普通硬件上,單提供不間斷監(jiān)控、錯誤檢查、容錯技術(shù)和自動回復等功能。可以給用戶提供總體性能較高的服務。
在GFS中存有海量數(shù)據(jù),一般一個文件會有幾個GB大,數(shù)據(jù)集一般能有幾個TB大。不能按照普通塊大小進行文件操作,否則會引發(fā)I/O阻塞,所以必須重新設定塊大小。GFS中每個塊得大小為64MB。
4 MapReduce
在搜索引擎進行索引的過程中,需要處理大量數(shù)據(jù),并且產(chǎn)生更多的新數(shù)據(jù),在分布式環(huán)境下,會有上千臺計算機工作,如何在這種大規(guī)模環(huán)境下工作,就是MapReduce需要具體解決的問題。
5 BigTable
因為Google體系結(jié)構(gòu)中存在許多半結(jié)構(gòu)化的數(shù)據(jù),如URL,內(nèi)容,Metadata,鏈接,anchors,pagerank,所以要設計一個能運行與分布式式環(huán)境下的數(shù)據(jù)庫存儲結(jié)構(gòu),這種特殊的數(shù)據(jù)庫就是BigTable。
除此之外還有用戶數(shù)據(jù),用戶喜好設定數(shù)據(jù),最近的查詢/檢索結(jié)果,并且還有一些地理位置信息,如商店、飯館、道路、衛(wèi)星圖像、用戶的注釋等。這些數(shù)據(jù)規(guī)模是巨大的,有上十億的URL,并且每秒鐘要承受上千次的查詢,并且同樣要求提供100TB+的衛(wèi)星圖像數(shù)據(jù)。
相對于商業(yè)數(shù)據(jù)庫而言數(shù)據(jù)規(guī)模還是太大了,而且花費太高,自己設計底層功能對幫助改善性能還是很大的。
關鍵詞:搜索引擎 發(fā)展 問題 對策
1 搜索引擎組成和分類
在互聯(lián)網(wǎng)中尋找信息要依賴搜索引擎,搜索引擎由搜索器(Robot)、索引器(Indexer)、檢索器(Searcher)和用戶接口等四個部分組成[2]。搜索引擎系統(tǒng)首先由搜索器收集網(wǎng)頁的內(nèi)容,然后索引器分析收集內(nèi)容并建立索引,再由檢索器響應用戶的檢索請示,用戶輸入關鍵字后,搜索器要用這個檢索詞與建立的索引器匹配,匹配后作相關性排序,最后通過用戶接口將排序結(jié)果送給用戶。
搜索引擎分為目錄索引類搜索引擎、全文搜索引擎和元搜索引擎。基于目錄的搜索引擎是按目錄分類的網(wǎng)站鏈接列表。數(shù)據(jù)庫由人工建立,編輯人員訪問某個Web站點后,根據(jù)站點的內(nèi)容和性質(zhì)歸類,并把站點的URL和描述放入該類別。目錄索引中最具代表性的是Yahoo,國內(nèi)的新浪、網(wǎng)易屬于這一類。全文搜索引擎是名副其實的搜索引擎,它們從互聯(lián)網(wǎng)上提取各網(wǎng)站信息(以網(wǎng)頁文字為主)建立數(shù)據(jù)庫,通過數(shù)據(jù)庫檢索與用戶查詢條件匹配的相關記錄,按一定的排列順序?qū)⒔Y(jié)果返回給用戶。國外具有代表性的有Google,國內(nèi)著名的有百度。元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,并將結(jié)果返回給用戶。元搜索引擎沒有存放網(wǎng)頁信息的數(shù)據(jù)庫,當用戶查詢關鍵字,它把用戶的查詢請求轉(zhuǎn)換成其他搜索引擎能夠接受的命令格式,并行訪問數(shù)個搜索引擎來查詢這個關鍵字,并把這些搜索引擎返回的結(jié)果經(jīng)過處理后返回給用戶。著名的元搜索引擎有InfoSpace,中文的元搜索引擎有搜星搜索。
2 搜索引擎行業(yè)盈利模式概述
目前搜索引擎的主要盈利模式是基于競價排名的廣告模式,具體廣告主在向垂直搜索引擎購買該項服務后,通過注冊一定數(shù)量的關鍵字,按照付費最高者排名靠前的原則,購買了同一關鍵字的網(wǎng)站按不同的順序進行排名,出現(xiàn)在網(wǎng)民相應的搜索結(jié)果中。之后根據(jù)點擊效果,搜索引擎企業(yè)向廣告主收取相應的費用。
3 搜索引擎行業(yè)發(fā)展面臨的問題分析
一是盈利模式單一。目前搜索引擎的主要盈利模式還是主要局限在廣告業(yè)務上,如此單一的盈利模式,導致其應對風險的能力薄弱。二是行業(yè)整合力度不大。搜索引擎行業(yè)擁有巨大的資源優(yōu)勢,如客戶資源,并未將其進行有效的整合,以利用其優(yōu)勢去發(fā)展其相關行業(yè)。三是專業(yè)人才偏少。搜索引擎行業(yè)是一個迅猛發(fā)展的行業(yè),技術(shù)發(fā)展日新月異,對人才的需求非常大,一方面搜索引擎企業(yè)極其缺乏專業(yè)人才,一方面大量的求職者又無法滿足搜索引擎行業(yè)的要求。四是存在侵權(quán)現(xiàn)象。“網(wǎng)絡侵權(quán)”是搜索引擎服務商和營銷商隨時可能面臨的法律難題。例如,搜索引擎營銷借助互聯(lián)網(wǎng)實現(xiàn)信息海量鏈接,鏈接的頁面可能已經(jīng)損害到用戶或第三人權(quán)利,鏈接的設置者是否真的侵權(quán)是司法認定中的難題。
4 搜索引擎行業(yè)發(fā)展對策研究
4.1加快發(fā)展垂直搜索引擎
垂直搜索引擎是繼通用搜索引擎之后的一項面向?qū)I(yè)化,主題化的搜索技術(shù),目前中國互聯(lián)網(wǎng)中不斷有面向新行業(yè)的垂直搜索引擎網(wǎng)站出現(xiàn),如搜房網(wǎng)、面向求職的職業(yè)搜索等。
發(fā)展垂直搜索引擎,可以開拓出以下幾種盈利模式:一是成為行業(yè)交易中介平臺。通過和該行業(yè)的從業(yè)人員進行有效溝通,以及對該行業(yè)進行充分調(diào)研了解,對垂直搜索引擎進行不斷改造和更新,使其成為電子商務的中介平臺。二是為相關行業(yè)提供有效搜索數(shù)據(jù)。垂直搜索引擎可以在用戶查詢時對其所輸入的關鍵字進行記錄,之后在一個時間間隔內(nèi)(3個月或半年)對這些關鍵字進行統(tǒng)計分析一次,就能夠獲取這個時間區(qū)間內(nèi)用戶對這個行業(yè)的各方面關注情況,這些資料對于從事該行業(yè)的企業(yè)具有參考價值。三是對行業(yè)用戶提供相關廣告推薦。作為競價排名廣告的有益補充,數(shù)據(jù)挖掘技術(shù)在推薦廣告方面也可以發(fā)揮出它的作用。當獲得一系列用戶的興趣模型,即可對這些用戶進行相應的聚類分析,可以進行相應的廣告投放和產(chǎn)品推薦。
4.2發(fā)展移動搜索
移動搜索可以挖掘出更多的盈利模式[3]。移動搜索模式要充分發(fā)揮及時定位的特點,當用戶向移動搜索提交關鍵字查詢時,搜索引擎通過用戶所發(fā)送的關鍵字附帶的頭信息,判斷出用戶所在位置附近的基站。通過定位基站信息,查詢到用戶所在的大致位置信息,并將位置與關鍵字結(jié)對搜索結(jié)果重新組合,將相應結(jié)果返回給用戶。通過與位置相結(jié)合的相關反饋,可以使用戶獲得更需要的搜索結(jié)果,為用戶提供有價值的參考信息,并有效過濾很多無關信息。例如,通過當前用戶的位置,以用戶提交的某種商品名為關鍵字,返回給用戶該商品附近的銷售信息、打折排序等信息。
4.3積極發(fā)展搜索引擎上下游行業(yè)
一是向上游拓展,發(fā)展傳媒事業(yè)。通過發(fā)展傳媒事業(yè),搜索引擎行業(yè)可以獲得話語權(quán),獲得進入相關行業(yè)的通道。二是橫向延伸,發(fā)展搜索的企業(yè)級應用,為企業(yè)定制搜索服務。三是向下游拓展,發(fā)展電子商務。搜索引擎行業(yè)的用戶群中,有很大一部分是符合電子商務標準的,屬于電子商務的優(yōu)良客戶。
4.4加強搜索引擎行業(yè)人才隊伍建設
目前搜索引擎行業(yè)最緊缺的是三類人才:搜索引擎營銷人才、投資管理人才和高技能專業(yè)軟件人才。解決這三類人才短缺瓶頸需要一個長期努力的過程,一方面要多途徑培養(yǎng)人才,借助政府、高校、搜索引擎企業(yè)、研究機構(gòu)四方共同努力,加大力度培養(yǎng)本土高技能人才和營銷人才;另一方面要多渠道吸引人才,創(chuàng)新人才政策,集聚海內(nèi)外優(yōu)秀投資管理人才和資本運營人才。
4.5加大對搜索引擎行業(yè)扶持力度
搜索引擎行業(yè)是互聯(lián)網(wǎng)企業(yè)的排頭兵,中國應該對有技術(shù)潛力的搜索引擎企業(yè)加大扶持力度。在經(jīng)營上給予政策優(yōu)惠,提高他們盈利水平,增強融資功能,滿足開發(fā)新技術(shù)對資金的需求;政府應主動牽線,促進搜索引擎行業(yè)與高校和研究機構(gòu)的技術(shù)交流,使搜索引擎行業(yè)可以分享高校和研究機構(gòu)的研究成果,并為他們的研究提供實踐機會,促進研究成果商業(yè)化。
4.6加快搜索引擎行業(yè)立法
首先,為進一步推進搜索引擎發(fā)展提供法律保障,為搜索引擎行業(yè)的行為做出明確的規(guī)范,規(guī)避潛在的經(jīng)營風險。其次,為搜索引擎在版權(quán)保護方面提供法律依據(jù)。通過法律明確界定搜索引擎可以收錄信息的范圍,既可保證版權(quán)人的合法權(quán)益,又保證搜索引擎加入盡可能多的信息。第三,對搜索引擎營銷做出行為規(guī)范。對搜索引擎營銷所涉及到的諸如點擊計數(shù),虛假廣告等違規(guī)行為進行規(guī)范、監(jiān)督和控制。
參考文獻
[1] 楊麗媼.百度的公信危機[J].東方企業(yè)文化,2009,(1):66-67.
[2] 張訊沫.搜索引擎的設計剖析[J].計算機工程與科學,2002,24(4):18-20.
《報告》顯示,截至2011年第三季度,搜索引擎用戶規(guī)模達到3.96億,用戶增長放緩。
網(wǎng)民網(wǎng)頁搜索使用慣性已經(jīng)養(yǎng)成
百度憑借其豐富的產(chǎn)品線,仍舊占據(jù)極為領先的市場地位,2011年市場集中化趨勢更為明顯。百度對六大群體——少年用戶群、大學生用戶群、白領用戶群、藍領用戶群、老年用戶群、農(nóng)村用戶群的滲透率都很高,沒有明顯的用戶滲透短板。與此同時,其他搜索引擎公司正在崛起,但是在傳統(tǒng)網(wǎng)頁搜索上,超過百度較為不易。
垂直搜索引擎正在興起
隨著中國網(wǎng)民的日益成熟,網(wǎng)民在仍舊是綜合搜索引擎用戶的同時,更多細分化的需求開始通過垂直搜索引擎滿足,2011年這一趨勢更為明顯。在爭奪垂直產(chǎn)品搜索用戶上,三股力量在角力:綜合搜索引擎、垂直搜索引擎、提品服務的網(wǎng)站站內(nèi)搜索。目前綜合搜索引擎的用戶量非常大,但另外垂直搜索引擎以及網(wǎng)絡應用站內(nèi)搜索用戶量增長迅速。
從產(chǎn)品搜索看,各有15%左右的用戶使用專業(yè)垂直搜索引擎和使用購物網(wǎng)站站內(nèi)搜索;從視頻搜索看,則是視頻網(wǎng)站站內(nèi)搜索較強,比例達到23.2%,使用專業(yè)垂直搜索引擎和視頻網(wǎng)站站內(nèi)搜索的比例分別是9.9%和23.2%;音樂搜索亦是如此,在音樂網(wǎng)站站內(nèi)搜索的比例達到28.3%,已超過通過綜合搜索引擎提供的音樂搜索功能搜索的21.7%。
新搜索入口正在形成
網(wǎng)民使用較多的仍舊是直接上專業(yè)搜索網(wǎng)站的首頁搜索,有81%的用戶有這一習慣。其次是在瀏覽器地址欄里輸入關鍵詞搜索,用戶比例達39.6%。網(wǎng)民進入搜索引擎的方式多種多樣,除了以上這兩種外,導航網(wǎng)站、瀏覽器搜索框、聊天工具等都是網(wǎng)民進入搜索引擎的重要入口,使用比例分別達到34.2%、31.4%、28.1%。
分用戶群看,老年用戶更習慣使用直接登錄首頁,使用網(wǎng)站首頁的比例在六大群體中最高,達到84.8%。活躍度較高的大學生用戶和少年用戶更喜歡瀏覽器搜索框和聊天工具提供的搜索引擎入口,大學生用戶使用瀏覽器搜索框的比例為42.4%,少年用戶使用聊天工具提供搜索框的比例是39.1%。這預示著搜索未來的發(fā)展方向。
新聞、視頻和音樂是用戶最常搜索的三大內(nèi)容