一、什么是搜索引擎
搜索引擎是指根據一定的(de)策略、運(yun)用(yong)特(te)定的(de)計算機(ji)程序從(cong)互(hu)聯(lian)網上采集信(xin)息,在(zai)對信(xin)息進行組織和(he)處理(li)后,為用(yong)戶提供(gong)檢索服務,將檢索的(de)相(xiang)關信(xin)息展示給用(yong)戶的(de)系統。搜(sou)索引(yin)(yin)擎(qing)是工作于互(hu)聯(lian)網上的(de)一門(men)檢索技術(shu),它指在(zai)提高(gao)人(ren)們獲取搜(sou)集信(xin)息的(de)速度,為人(ren)們提供(gong)更好的(de)網絡使(shi)用(yong)環境。從(cong)功能和(he)原理(li)上搜(sou)索引(yin)(yin)擎(qing)大(da)致被分(fen)為全(quan)文搜(sou)索引(yin)(yin)擎(qing)、元搜(sou)索引(yin)(yin)擎(qing)、垂直搜(sou)索引(yin)(yin)擎(qing)和(he)目錄搜(sou)索引(yin)(yin)擎(qing)等四大(da)類。
二、搜索引擎的工作原理
搜(sou)索(suo)(suo)引擎的(de)工作原(yuan)理是(shi)從互聯網(wang)上抓取網(wang)頁(ye),建立索(suo)(suo)引數據庫,在索(suo)(suo)引數據庫中搜(sou)索(suo)(suo)排序。它的(de)整(zheng)個工作過程(cheng)大體分(fen)為(wei)信(xin)(xin)(xin)息采(cai)集(ji)、信(xin)(xin)(xin)息分(fen)析、信(xin)(xin)(xin)息查(cha)詢(xun)(xun)和用戶接(jie)口四部分(fen)。信(xin)(xin)(xin)息采(cai)集(ji)是(shi)網(wang)絡(luo)(luo)機器(qi)人掃描(miao)一定(ding)IP地址范(fan)圍內的(de)網(wang)站,通過鏈接(jie)遍歷Web空間,來進行采(cai)集(ji)網(wang)頁(ye)資料,為(wei)保(bao)證采(cai)集(ji)的(de)資料最(zui)新,網(wang)絡(luo)(luo)機器(qi)人還(huan)會(hui)回(hui)訪(fang)已抓取過的(de)網(wang)頁(ye);信(xin)(xin)(xin)息分(fen)析是(shi)通過分(fen)析程(cheng)序,從采(cai)集(ji)的(de)信(xin)(xin)(xin)息中提取索(suo)(suo)引項(xiang),用索(suo)(suo)引項(xiang)表示文(wen)檔(dang)(dang)并(bing)生成(cheng)文(wen)檔(dang)(dang)庫的(de)索(suo)(suo)引表,從而建立索(suo)(suo)引數據庫;信(xin)(xin)(xin)息查(cha)詢(xun)(xun)是(shi)指用戶以關鍵詞查(cha)找信(xin)(xin)(xin)息時,搜(sou)索(suo)(suo)引擎會(hui)根據用戶的(de)查(cha)詢(xun)(xun)條件(jian)在索(suo)(suo)引庫中快速(su)檢索(suo)(suo)文(wen)檔(dang)(dang),然后(hou)對檢出的(de)文(wen)檔(dang)(dang)與查(cha)詢(xun)(xun)條件(jian)的(de)相(xiang)關度(du)進行評價,最(zui)后(hou)根據相(xiang)關度(du)對檢索(suo)(suo)結(jie)果(guo)進行排序并(bing)輸出。
三、搜索引擎的工作流程
1、爬行和抓取
搜(sou)索引(yin)(yin)擎(qing)派出(chu)一(yi)(yi)個(ge)(ge)能夠在(zai)網(wang)(wang)(wang)上(shang)發現新(xin)網(wang)(wang)(wang)頁(ye)并抓(zhua)文(wen)(wen)件(jian)(jian)的(de)(de)(de)程序,這(zhe)個(ge)(ge)程序通常(chang)稱之(zhi)為(wei)蜘(zhi)(zhi)蛛(Spider)。搜(sou)索引(yin)(yin)擎(qing)從已知的(de)(de)(de)數據(ju)(ju)庫(ku)出(chu)發,就像正常(chang)用(yong)戶的(de)(de)(de)瀏(liu)覽(lan)器一(yi)(yi)樣(yang)訪問這(zhe)些網(wang)(wang)(wang)頁(ye)并抓(zhua)取(qu)文(wen)(wen)件(jian)(jian)。搜(sou)索引(yin)(yin)擎(qing)通過(guo)這(zhe)些爬(pa)(pa)(pa)蟲去爬(pa)(pa)(pa)互聯(lian)網(wang)(wang)(wang)上(shang)的(de)(de)(de)外(wai)鏈(lian),從這(zhe)個(ge)(ge)網(wang)(wang)(wang)站爬(pa)(pa)(pa)到另一(yi)(yi)個(ge)(ge)網(wang)(wang)(wang)站,去跟蹤(zong)網(wang)(wang)(wang)頁(ye)中的(de)(de)(de)鏈(lian)接(jie),訪問更(geng)多的(de)(de)(de)網(wang)(wang)(wang)頁(ye),這(zhe)個(ge)(ge)過(guo)程就叫爬(pa)(pa)(pa)行。這(zhe)些新(xin)的(de)(de)(de)網(wang)(wang)(wang)址會被存入(ru)數據(ju)(ju)庫(ku)等待(dai)搜(sou)索。所以跟蹤(zong)網(wang)(wang)(wang)頁(ye)鏈(lian)接(jie)是搜(sou)索引(yin)(yin)擎(qing)蜘(zhi)(zhi)蛛(Spider)發現新(xin)網(wang)(wang)(wang)址的(de)(de)(de)最基本的(de)(de)(de)方法(fa),所以反(fan)向鏈(lian)接(jie)成(cheng)為(wei)搜(sou)索引(yin)(yin)擎(qing)優化的(de)(de)(de)最基本因素(su)之(zhi)一(yi)(yi)。搜(sou)索引(yin)(yin)擎(qing)抓(zhua)取(qu)的(de)(de)(de)頁(ye)面文(wen)(wen)件(jian)(jian)與用(yong)戶瀏(liu)覽(lan)器得到的(de)(de)(de)完全(quan)一(yi)(yi)樣(yang),抓(zhua)取(qu)的(de)(de)(de)文(wen)(wen)件(jian)(jian)存入(ru)數據(ju)(ju)庫(ku)。
2、建立索引
蜘(zhi)蛛抓取的(de)頁(ye)面文件分(fen)解(jie)、分(fen)析,并(bing)以巨大表格的(de)形式存入數據庫,這個過(guo)程即是索(suo)引(yin)(index)。在索(suo)引(yin)數據庫中,網頁(ye)文字(zi)內容,關鍵(jian)詞出現的(de)位置、字(zi)體、顏色(se)、加粗(cu)、斜(xie)體等相關信息都有相應記錄。
3、搜索詞處理
用(yong)戶在搜(sou)索引擎(qing)界面輸入關鍵詞(ci),單擊“搜(sou)索”按鈕后,搜(sou)索引擎(qing)程(cheng)序(xu)即(ji)對搜(sou)索詞(ci)進(jin)行處理(li)(li),如中文(wen)特有(you)的(de)分詞(ci)處理(li)(li),去除(chu)停止詞(ci),判斷是否需要啟動(dong)整合搜(sou)索,判斷是否有(you)拼(pin)寫錯(cuo)誤或(huo)錯(cuo)別(bie)字等情況。搜(sou)索詞(ci)的(de)處理(li)(li)必須十(shi)分快(kuai)速。
4、排序
對搜索詞處理后,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,并且根據排名算法計算出哪些網頁應該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法與人(ren)相比,這就是為什么(me)網(wang)站要進行搜(sou)(sou)索引(yin)擎(qing)優化(SEO)。沒有SEO的幫助,搜(sou)(sou)索引(yin)擎(qing)常常并不能正(zheng)確的返(fan)回最(zui)相關、最(zui)權威、最(zui)有用的信息。