1、爬蟲:從(cong)互(hu)聯網(wang)爬取(qu)原始網(wang)頁數(shu)據,存(cun)儲于(yu)文檔知識庫服務器。
2、文檔知識庫(ku)服務(wu)器(qi):存儲(chu)原始(shi)網頁數(shu)據(ju),通常(chang)是(shi)分(fen)布式Key-Value數(shu)據(ju)庫(ku),能(neng)根據(ju)URL/UID快速獲取網頁內容(rong)。
3、索(suo)引(yin):讀取原始網(wang)頁數(shu)據(ju)(ju),解析(xi)網(wang)頁,抽(chou)取有(you)效字段(duan),生成索(suo)引(yin)數(shu)據(ju)(ju)。索(suo)引(yin)數(shu)據(ju)(ju)的生成方(fang)式(shi)通常是增量的,分塊/分片的,并會進(jin)行索(suo)引(yin)合并、優化(hua)和刪除。生成的索(suo)引(yin)數(shu)據(ju)(ju)通常包括:字典數(shu)據(ju)(ju)、倒排表、正(zheng)排表、文檔(dang)屬(shu)性等。生成的索(suo)引(yin)存儲于索(suo)引(yin)服務器。
4、索引服務器(qi):存儲索引數據(ju)(ju),主(zhu)要是倒排(pai)表,通常是分(fen)塊、分(fen)片存儲,并支(zhi)持(chi)增量(liang)更(geng)新和(he)刪除。數據(ju)(ju)內容量(liang)非常大時,還根據(ju)(ju)類別、主(zhu)題、時間、網頁質量(liang)劃分(fen)數據(ju)(ju)分(fen)區和(he)分(fen)布,更(geng)好(hao)地服務在線查詢。
5、檢索:讀取倒排表索引,響(xiang)應前端查(cha)詢請求,返回相關文(wen)檔列表數據。
6、排序:對檢索器(qi)返回的文檔(dang)列表進行(xing)排序,基于文檔(dang)和(he)查詢的相(xiang)關性、文檔(dang)的鏈接權重等屬性。
7、鏈接分析:收集各網(wang)頁的(de)鏈接數據和(he)錨(mao)文本(Anchor Text),以此(ci)計算各網(wang)頁鏈接評分,最終(zhong)會作為網(wang)頁屬性參與(yu)返回結果排序。
8、網(wang)頁(ye)去重:提(ti)取各網(wang)頁(ye)的相關特征屬性(xing),計算相似網(wang)頁(ye)組,提(ti)供離線(xian)索引和(he)在線(xian)查詢的去重服務。
9、網頁(ye)(ye)反垃圾:收集各網頁(ye)(ye)和網站(zhan)歷史(shi)信息(xi),提取垃圾網頁(ye)(ye)特征,從而對在線索引中的網頁(ye)(ye)進行判定,去除垃圾網頁(ye)(ye)。
10、查詢分析:分析用(yong)戶查詢,生成結(jie)構化查詢請(qing)求,指派到相應的類別(bie)、主題數據(ju)服務器(qi)進(jin)行(xing)查詢。
11、頁面(mian)描述(shu)/摘(zhai)(zhai)要(yao):為檢索(suo)和(he)排序完(wan)成的網(wang)頁列表提供(gong)相應的描述(shu)和(he)摘(zhai)(zhai)要(yao)。
12、前(qian)端:接(jie)受用(yong)戶請求(qiu),分(fen)發至相應服務(wu)器,返回查詢結果(guo)。