1、爬蟲:從互聯網(wang)(wang)爬取原始(shi)網(wang)(wang)頁數據,存儲于文檔知識庫(ku)服務器。
2、文檔知(zhi)識庫(ku)服務器(qi):存儲原始網頁數據,通常是分(fen)布式Key-Value數據庫(ku),能根(gen)據URL/UID快速(su)獲取網頁內容。
3、索(suo)(suo)引:讀取原始網(wang)頁數據(ju)(ju),解析(xi)網(wang)頁,抽取有(you)效字(zi)段,生(sheng)成(cheng)索(suo)(suo)引數據(ju)(ju)。索(suo)(suo)引數據(ju)(ju)的(de)(de)生(sheng)成(cheng)方式通(tong)常是(shi)增(zeng)量的(de)(de),分(fen)(fen)塊/分(fen)(fen)片(pian)的(de)(de),并會進行索(suo)(suo)引合并、優化和刪(shan)除。生(sheng)成(cheng)的(de)(de)索(suo)(suo)引數據(ju)(ju)通(tong)常包(bao)括:字(zi)典數據(ju)(ju)、倒排表(biao)、正排表(biao)、文檔(dang)屬(shu)性(xing)等(deng)。生(sheng)成(cheng)的(de)(de)索(suo)(suo)引存(cun)儲于索(suo)(suo)引服務器。
4、索引(yin)服(fu)務(wu)(wu)器:存(cun)儲(chu)索引(yin)數據,主(zhu)要是倒排表,通常(chang)是分(fen)塊、分(fen)片存(cun)儲(chu),并支持(chi)增量(liang)更新(xin)和刪除。數據內容量(liang)非(fei)常(chang)大時,還(huan)根據類別、主(zhu)題、時間、網頁質量(liang)劃分(fen)數據分(fen)區和分(fen)布,更好地服(fu)務(wu)(wu)在線查詢。
5、檢索(suo):讀(du)取(qu)倒排表(biao)索(suo)引,響應前端查詢請(qing)求,返回相關文檔列表(biao)數據(ju)。
6、排序:對(dui)檢索(suo)器返(fan)回的文(wen)檔列表進行排序,基(ji)于文(wen)檔和查詢的相關性、文(wen)檔的鏈接(jie)權(quan)重等屬性。
7、鏈接分析(xi):收集各網頁(ye)的鏈接數據和錨(mao)文(wen)本(ben)(Anchor Text),以此計算各網頁(ye)鏈接評分,最(zui)終會作為網頁(ye)屬(shu)性參與返回結果(guo)排序。
8、網(wang)頁去重(zhong):提(ti)取各網(wang)頁的相關特(te)征屬(shu)性,計(ji)算相似網(wang)頁組,提(ti)供離線(xian)索引(yin)和在線(xian)查(cha)詢的去重(zhong)服務(wu)。
9、網(wang)頁反垃(la)(la)圾(ji)(ji):收集(ji)各網(wang)頁和(he)網(wang)站歷史信(xin)息,提取(qu)垃(la)(la)圾(ji)(ji)網(wang)頁特征,從而對在線索引中的網(wang)頁進行判(pan)定,去除垃(la)(la)圾(ji)(ji)網(wang)頁。
10、查(cha)詢(xun)分析:分析用戶查(cha)詢(xun),生(sheng)成結構化查(cha)詢(xun)請求(qiu),指派(pai)到相(xiang)應的類別、主題數據服務(wu)器進行查(cha)詢(xun)。
11、頁(ye)面描(miao)述(shu)/摘要:為(wei)檢索和排序完成(cheng)的(de)(de)網頁(ye)列表(biao)提供相應的(de)(de)描(miao)述(shu)和摘要。
12、前端:接受用(yong)戶請(qing)求(qiu),分(fen)發至相應服務器(qi),返回查詢結果。