一、什么是搜索引擎
搜索引擎是指根據一定的(de)策略、運用特定的(de)計算機程序從互(hu)聯(lian)網上采(cai)集信(xin)(xin)息,在對信(xin)(xin)息進(jin)行(xing)組織和處理后,為(wei)(wei)(wei)用戶(hu)提(ti)供(gong)檢(jian)(jian)索服務,將檢(jian)(jian)索的(de)相關信(xin)(xin)息展(zhan)示(shi)給(gei)用戶(hu)的(de)系統。搜(sou)索引(yin)擎(qing)是工作(zuo)于互(hu)聯(lian)網上的(de)一門(men)檢(jian)(jian)索技術,它指在提(ti)高(gao)人們(men)獲取搜(sou)集信(xin)(xin)息的(de)速度,為(wei)(wei)(wei)人們(men)提(ti)供(gong)更好的(de)網絡使用環境(jing)。從功能和原理上搜(sou)索引(yin)擎(qing)大(da)致被分為(wei)(wei)(wei)全文搜(sou)索引(yin)擎(qing)、元搜(sou)索引(yin)擎(qing)、垂(chui)直搜(sou)索引(yin)擎(qing)和目錄搜(sou)索引(yin)擎(qing)等四大(da)類。
二、搜索引擎的工作原理
搜(sou)(sou)索(suo)引(yin)(yin)(yin)(yin)擎的(de)(de)(de)工作原理是(shi)從(cong)(cong)互聯網(wang)上抓取網(wang)頁(ye),建立索(suo)引(yin)(yin)(yin)(yin)數據(ju)(ju)庫(ku)(ku)(ku)(ku),在索(suo)引(yin)(yin)(yin)(yin)數據(ju)(ju)庫(ku)(ku)(ku)(ku)中搜(sou)(sou)索(suo)排(pai)序(xu)。它的(de)(de)(de)整(zheng)個工作過程大體(ti)分(fen)為(wei)信(xin)息(xi)采集、信(xin)息(xi)分(fen)析(xi)、信(xin)息(xi)查(cha)(cha)詢(xun)(xun)和用(yong)戶(hu)(hu)接(jie)口(kou)四部分(fen)。信(xin)息(xi)采集是(shi)網(wang)絡機器人(ren)掃描(miao)一定IP地址范(fan)圍內(nei)的(de)(de)(de)網(wang)站,通(tong)過鏈接(jie)遍歷Web空間,來進(jin)行采集網(wang)頁(ye)資(zi)料,為(wei)保證采集的(de)(de)(de)資(zi)料最(zui)新,網(wang)絡機器人(ren)還會回訪已抓取過的(de)(de)(de)網(wang)頁(ye);信(xin)息(xi)分(fen)析(xi)是(shi)通(tong)過分(fen)析(xi)程序(xu),從(cong)(cong)采集的(de)(de)(de)信(xin)息(xi)中提取索(suo)引(yin)(yin)(yin)(yin)項,用(yong)索(suo)引(yin)(yin)(yin)(yin)項表示文(wen)檔(dang)(dang)并生成文(wen)檔(dang)(dang)庫(ku)(ku)(ku)(ku)的(de)(de)(de)索(suo)引(yin)(yin)(yin)(yin)表,從(cong)(cong)而建立索(suo)引(yin)(yin)(yin)(yin)數據(ju)(ju)庫(ku)(ku)(ku)(ku);信(xin)息(xi)查(cha)(cha)詢(xun)(xun)是(shi)指用(yong)戶(hu)(hu)以關鍵詞查(cha)(cha)找信(xin)息(xi)時(shi),搜(sou)(sou)索(suo)引(yin)(yin)(yin)(yin)擎會根據(ju)(ju)用(yong)戶(hu)(hu)的(de)(de)(de)查(cha)(cha)詢(xun)(xun)條件(jian)在索(suo)引(yin)(yin)(yin)(yin)庫(ku)(ku)(ku)(ku)中快速檢(jian)索(suo)文(wen)檔(dang)(dang),然(ran)后對(dui)檢(jian)出的(de)(de)(de)文(wen)檔(dang)(dang)與查(cha)(cha)詢(xun)(xun)條件(jian)的(de)(de)(de)相(xiang)關度(du)進(jin)行評價,最(zui)后根據(ju)(ju)相(xiang)關度(du)對(dui)檢(jian)索(suo)結果進(jin)行排(pai)序(xu)并輸出。
三、搜索引擎的工作流程
1、爬行和抓取
搜(sou)(sou)索(suo)引(yin)(yin)擎派出(chu)一個(ge)(ge)能(neng)夠在網(wang)上發現新網(wang)頁(ye)并抓(zhua)文(wen)(wen)件的(de)(de)(de)程(cheng)序,這(zhe)個(ge)(ge)程(cheng)序通常(chang)(chang)稱之(zhi)為蜘蛛(Spider)。搜(sou)(sou)索(suo)引(yin)(yin)擎從(cong)已(yi)知的(de)(de)(de)數(shu)據庫出(chu)發,就(jiu)像正常(chang)(chang)用戶的(de)(de)(de)瀏覽(lan)器一樣訪問(wen)這(zhe)些網(wang)頁(ye)并抓(zhua)取文(wen)(wen)件。搜(sou)(sou)索(suo)引(yin)(yin)擎通過這(zhe)些爬(pa)(pa)蟲(chong)去爬(pa)(pa)互(hu)聯網(wang)上的(de)(de)(de)外鏈,從(cong)這(zhe)個(ge)(ge)網(wang)站爬(pa)(pa)到另一個(ge)(ge)網(wang)站,去跟蹤網(wang)頁(ye)中的(de)(de)(de)鏈接(jie),訪問(wen)更多的(de)(de)(de)網(wang)頁(ye),這(zhe)個(ge)(ge)過程(cheng)就(jiu)叫爬(pa)(pa)行。這(zhe)些新的(de)(de)(de)網(wang)址會被(bei)存入數(shu)據庫等待搜(sou)(sou)索(suo)。所(suo)(suo)以跟蹤網(wang)頁(ye)鏈接(jie)是搜(sou)(sou)索(suo)引(yin)(yin)擎蜘蛛(Spider)發現新網(wang)址的(de)(de)(de)最基(ji)(ji)本的(de)(de)(de)方法(fa),所(suo)(suo)以反(fan)向鏈接(jie)成為搜(sou)(sou)索(suo)引(yin)(yin)擎優化的(de)(de)(de)最基(ji)(ji)本因素之(zhi)一。搜(sou)(sou)索(suo)引(yin)(yin)擎抓(zhua)取的(de)(de)(de)頁(ye)面文(wen)(wen)件與用戶瀏覽(lan)器得到的(de)(de)(de)完全一樣,抓(zhua)取的(de)(de)(de)文(wen)(wen)件存入數(shu)據庫。
2、建立索引
蜘(zhi)蛛(zhu)抓取的(de)頁面文(wen)件(jian)分解、分析,并以巨(ju)大表(biao)格的(de)形式存入(ru)數(shu)據(ju)庫,這個過程即是索引(index)。在索引數(shu)據(ju)庫中,網頁文(wen)字內容,關(guan)鍵詞出現的(de)位置、字體、顏色、加粗(cu)、斜體等(deng)相(xiang)關(guan)信(xin)息都有相(xiang)應(ying)記錄。
3、搜索詞處理
用戶(hu)在(zai)搜索(suo)(suo)引擎界面輸(shu)入關鍵詞(ci),單擊“搜索(suo)(suo)”按鈕后,搜索(suo)(suo)引擎程(cheng)序即對搜索(suo)(suo)詞(ci)進(jin)行處(chu)理(li),如(ru)中文特有的分(fen)詞(ci)處(chu)理(li),去除(chu)停止詞(ci),判斷(duan)是否(fou)需要啟動整合搜索(suo)(suo),判斷(duan)是否(fou)有拼寫錯誤(wu)或錯別字(zi)等情(qing)況。搜索(suo)(suo)詞(ci)的處(chu)理(li)必須十分(fen)快速(su)。
4、排序
對搜索詞處理后,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,并且根據排名算法計算出哪些網頁應該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無(wu)法(fa)與人相比,這就是為什么(me)網站要進(jin)行搜索(suo)引擎優化(SEO)。沒有(you)SEO的(de)幫助,搜索(suo)引擎常常并不能正確(que)的(de)返回(hui)最相關(guan)、最權(quan)威、最有(you)用的(de)信息。