一、搜索引擎的基本結構
搜索引擎基本(ben)結構一般包括:搜(sou)索(suo)器(qi)、索(suo)引(yin)器(qi)、檢索(suo)器(qi)、用戶接口等(deng)四個功能模塊(kuai)。
1、搜索器
搜索(suo)(suo)器也(ye)叫網絡蜘蛛,是搜索(suo)(suo)引擎用來(lai)爬行(xing)和抓取網頁(ye)的一(yi)個自動(dong)程(cheng)序,在系統后(hou)臺不停歇(xie)地在互(hu)聯(lian)網各個節點爬行(xing),在爬行(xing)過程(cheng)中盡可(ke)能快(kuai)的發(fa)現和抓取網頁(ye)。
2、索引器
它的主要功能是理解搜索(suo)器所采集(ji)的網頁信息,并(bing)從中(zhong)抽取索(suo)引項。
3、檢索器
其功能是(shi)快速查(cha)找文(wen)檔,進行文(wen)檔與查(cha)詢的相關度評價,對要輸出的結果(guo)進行排序。
4、用戶接口
它為用(yong)戶提供可(ke)視化的查詢(xun)輸入和(he)結果輸出的界面。
二、搜索引擎的主要模塊及功能
1、爬(pa)蟲:從互聯網(wang)爬(pa)取(qu)原(yuan)始(shi)網(wang)頁數據,存儲于文(wen)檔知(zhi)識庫服務器。
2、文檔知識庫服務器:存儲原始網(wang)頁(ye)數(shu)(shu)據(ju),通常是分布式(shi)Key-Value數(shu)(shu)據(ju)庫,能根據(ju)URL/UID快速獲取網(wang)頁(ye)內容。
3、索(suo)(suo)(suo)(suo)引(yin):讀取原始網頁(ye)(ye)數(shu)據(ju),解析網頁(ye)(ye),抽取有(you)效字段,生成(cheng)(cheng)索(suo)(suo)(suo)(suo)引(yin)數(shu)據(ju)。索(suo)(suo)(suo)(suo)引(yin)數(shu)據(ju)的(de)生成(cheng)(cheng)方式通常是增量的(de),分(fen)塊/分(fen)片的(de),并會進行(xing)索(suo)(suo)(suo)(suo)引(yin)合并、優化和(he)刪除(chu)。生成(cheng)(cheng)的(de)索(suo)(suo)(suo)(suo)引(yin)數(shu)據(ju)通常包(bao)括:字典數(shu)據(ju)、倒排表、正排表、文檔(dang)屬性等。生成(cheng)(cheng)的(de)索(suo)(suo)(suo)(suo)引(yin)存儲于索(suo)(suo)(suo)(suo)引(yin)服務器。
4、索引服務器(qi):存儲索引數據,主(zhu)要是倒排(pai)表,通常是分(fen)(fen)塊、分(fen)(fen)片存儲,并(bing)支持增(zeng)量(liang)更新和(he)(he)刪除。數據內(nei)容量(liang)非常大時,還根(gen)據類別(bie)、主(zhu)題、時間、網(wang)頁質量(liang)劃分(fen)(fen)數據分(fen)(fen)區和(he)(he)分(fen)(fen)布,更好地服務在線查詢。
5、檢索:讀取倒排表索引,響應(ying)前(qian)端(duan)查詢(xun)請(qing)求,返回相(xiang)關文檔列表數據(ju)。
6、排序:對檢索器返回的文檔(dang)列(lie)表進行排序,基(ji)于文檔(dang)和查詢的相(xiang)關性、文檔(dang)的鏈(lian)接權(quan)重等(deng)屬(shu)性。
7、鏈(lian)(lian)接(jie)(jie)分析:收集各(ge)網(wang)頁(ye)的鏈(lian)(lian)接(jie)(jie)數據和錨文本(ben)(Anchor Text),以此計算各(ge)網(wang)頁(ye)鏈(lian)(lian)接(jie)(jie)評分,最終會作為(wei)網(wang)頁(ye)屬性參與返回結果排序。
8、網(wang)頁去(qu)重:提取各網(wang)頁的相(xiang)關特征屬性,計算相(xiang)似網(wang)頁組,提供離線索引(yin)和在(zai)線查詢的去(qu)重服務(wu)。
9、網(wang)(wang)頁(ye)反(fan)垃(la)圾:收集(ji)各網(wang)(wang)頁(ye)和網(wang)(wang)站(zhan)歷史信息,提取垃(la)圾網(wang)(wang)頁(ye)特(te)征,從而對在線索引中(zhong)的網(wang)(wang)頁(ye)進行判定,去除(chu)垃(la)圾網(wang)(wang)頁(ye)。
10、查(cha)(cha)詢(xun)分(fen)析:分(fen)析用戶查(cha)(cha)詢(xun),生成(cheng)結構(gou)化查(cha)(cha)詢(xun)請求(qiu),指派到相應的(de)類別(bie)、主題數(shu)據(ju)服務器(qi)進行(xing)查(cha)(cha)詢(xun)。
11、頁面(mian)描述/摘要:為檢索和排序完成的(de)網(wang)頁列表提供相應的(de)描述和摘要。
12、前端:接受用戶請(qing)求(qiu),分(fen)發至相(xiang)應服務器,返回查詢結(jie)果(guo)。