1、爬(pa)蟲(chong):從互聯(lian)網爬(pa)取原始網頁數(shu)據(ju),存儲于文(wen)檔知(zhi)識庫(ku)服(fu)務器。
2、文檔(dang)知(zhi)識庫(ku)服(fu)務器(qi):存儲原始網頁(ye)數據(ju)(ju),通常是分布(bu)式Key-Value數據(ju)(ju)庫(ku),能根據(ju)(ju)URL/UID快速獲取網頁(ye)內容。
3、索引(yin)(yin)(yin):讀取(qu)原始網(wang)頁數(shu)據(ju)(ju),解(jie)析網(wang)頁,抽取(qu)有效字(zi)段,生成索引(yin)(yin)(yin)數(shu)據(ju)(ju)。索引(yin)(yin)(yin)數(shu)據(ju)(ju)的(de)生成方(fang)式通(tong)常是增量的(de),分塊/分片的(de),并(bing)會進行索引(yin)(yin)(yin)合并(bing)、優化(hua)和刪除(chu)。生成的(de)索引(yin)(yin)(yin)數(shu)據(ju)(ju)通(tong)常包(bao)括:字(zi)典(dian)數(shu)據(ju)(ju)、倒排表(biao)(biao)、正(zheng)排表(biao)(biao)、文檔屬性等。生成的(de)索引(yin)(yin)(yin)存(cun)儲于索引(yin)(yin)(yin)服(fu)務器(qi)。
4、索(suo)引服務器(qi):存(cun)儲索(suo)引數據(ju),主要是倒排表,通常是分(fen)塊、分(fen)片存(cun)儲,并支持增量更新(xin)和刪(shan)除。數據(ju)內容量非常大時(shi),還根據(ju)類別、主題、時(shi)間(jian)、網頁(ye)質量劃分(fen)數據(ju)分(fen)區和分(fen)布,更好地服務在線查詢。
5、檢索:讀取倒排(pai)表(biao)索引,響應前端(duan)查詢請求,返回相關文檔列表(biao)數據(ju)。
6、排序:對檢索器返回的(de)文(wen)(wen)檔(dang)列(lie)表進行排序,基于文(wen)(wen)檔(dang)和查詢的(de)相關(guan)性(xing)(xing)、文(wen)(wen)檔(dang)的(de)鏈接權重等屬性(xing)(xing)。
7、鏈(lian)(lian)接分析:收集各網(wang)頁(ye)的鏈(lian)(lian)接數據和錨文本(Anchor Text),以此(ci)計算各網(wang)頁(ye)鏈(lian)(lian)接評分,最終會作為網(wang)頁(ye)屬性參與返回結果排(pai)序。
8、網(wang)(wang)頁(ye)(ye)去重(zhong):提取各網(wang)(wang)頁(ye)(ye)的(de)相(xiang)關特征屬性,計算相(xiang)似網(wang)(wang)頁(ye)(ye)組,提供(gong)離(li)線(xian)索引和(he)在(zai)線(xian)查詢的(de)去重(zhong)服務。
9、網(wang)(wang)(wang)頁(ye)反垃(la)圾(ji):收集(ji)各網(wang)(wang)(wang)頁(ye)和(he)網(wang)(wang)(wang)站歷史信息,提取(qu)垃(la)圾(ji)網(wang)(wang)(wang)頁(ye)特征,從而對在線索引中的網(wang)(wang)(wang)頁(ye)進行(xing)判定,去除(chu)垃(la)圾(ji)網(wang)(wang)(wang)頁(ye)。
10、查(cha)(cha)詢分(fen)析:分(fen)析用戶查(cha)(cha)詢,生(sheng)成結(jie)構化查(cha)(cha)詢請求,指派到相應的類別、主(zhu)題數據服務(wu)器(qi)進行查(cha)(cha)詢。
11、頁面(mian)描(miao)述/摘(zhai)要:為檢索和排序(xu)完成的網頁列表提供相應的描(miao)述和摘(zhai)要。
12、前端:接(jie)受用戶請(qing)求,分發至相應服務器(qi),返回查詢結果(guo)。