一、什么是搜索引擎
搜索引擎是指(zhi)根(gen)據(ju)一定的策略(lve)、運用(yong)特定的計(ji)算機程序從互聯網(wang)上(shang)采集(ji)信(xin)息(xi)(xi),在(zai)對信(xin)息(xi)(xi)進行組織和(he)處理(li)后,為(wei)用(yong)戶提(ti)供(gong)(gong)檢索(suo)(suo)服務,將(jiang)檢索(suo)(suo)的相關(guan)信(xin)息(xi)(xi)展示給用(yong)戶的系統(tong)。搜(sou)(sou)索(suo)(suo)引(yin)(yin)(yin)擎(qing)是工作(zuo)于互聯網(wang)上(shang)的一門檢索(suo)(suo)技術(shu),它指(zhi)在(zai)提(ti)高(gao)人們獲取搜(sou)(sou)集(ji)信(xin)息(xi)(xi)的速(su)度,為(wei)人們提(ti)供(gong)(gong)更好的網(wang)絡使用(yong)環(huan)境。從功能和(he)原理(li)上(shang)搜(sou)(sou)索(suo)(suo)引(yin)(yin)(yin)擎(qing)大致被分為(wei)全文搜(sou)(sou)索(suo)(suo)引(yin)(yin)(yin)擎(qing)、元搜(sou)(sou)索(suo)(suo)引(yin)(yin)(yin)擎(qing)、垂直搜(sou)(sou)索(suo)(suo)引(yin)(yin)(yin)擎(qing)和(he)目錄搜(sou)(sou)索(suo)(suo)引(yin)(yin)(yin)擎(qing)等四大類。
二、搜索引擎的工作原理
搜(sou)索(suo)(suo)(suo)引(yin)擎的(de)工(gong)(gong)作原理是從(cong)互聯網上(shang)抓取網頁(ye)(ye),建(jian)立(li)索(suo)(suo)(suo)引(yin)數(shu)據(ju)庫(ku)(ku),在(zai)索(suo)(suo)(suo)引(yin)數(shu)據(ju)庫(ku)(ku)中(zhong)搜(sou)索(suo)(suo)(suo)排序(xu)。它的(de)整個工(gong)(gong)作過程大體分(fen)為(wei)信(xin)息(xi)(xi)采(cai)集(ji)、信(xin)息(xi)(xi)分(fen)析、信(xin)息(xi)(xi)查詢和用(yong)戶接(jie)口(kou)四部分(fen)。信(xin)息(xi)(xi)采(cai)集(ji)是網絡(luo)機(ji)(ji)器人(ren)掃描一(yi)定IP地址范(fan)圍內的(de)網站,通(tong)過鏈接(jie)遍歷Web空間,來進行(xing)(xing)采(cai)集(ji)網頁(ye)(ye)資料,為(wei)保證采(cai)集(ji)的(de)資料最(zui)(zui)新(xin),網絡(luo)機(ji)(ji)器人(ren)還會(hui)回(hui)訪已抓取過的(de)網頁(ye)(ye);信(xin)息(xi)(xi)分(fen)析是通(tong)過分(fen)析程序(xu),從(cong)采(cai)集(ji)的(de)信(xin)息(xi)(xi)中(zhong)提取索(suo)(suo)(suo)引(yin)項(xiang),用(yong)索(suo)(suo)(suo)引(yin)項(xiang)表(biao)示文(wen)(wen)檔并生成文(wen)(wen)檔庫(ku)(ku)的(de)索(suo)(suo)(suo)引(yin)表(biao),從(cong)而建(jian)立(li)索(suo)(suo)(suo)引(yin)數(shu)據(ju)庫(ku)(ku);信(xin)息(xi)(xi)查詢是指(zhi)用(yong)戶以關鍵詞查找信(xin)息(xi)(xi)時,搜(sou)索(suo)(suo)(suo)引(yin)擎會(hui)根(gen)(gen)據(ju)用(yong)戶的(de)查詢條件在(zai)索(suo)(suo)(suo)引(yin)庫(ku)(ku)中(zhong)快速(su)檢索(suo)(suo)(suo)文(wen)(wen)檔,然后對檢出的(de)文(wen)(wen)檔與查詢條件的(de)相(xiang)關度進行(xing)(xing)評價,最(zui)(zui)后根(gen)(gen)據(ju)相(xiang)關度對檢索(suo)(suo)(suo)結果進行(xing)(xing)排序(xu)并輸出。
三、搜索引擎的工作流程
1、爬行和抓取
搜(sou)(sou)(sou)索(suo)(suo)引(yin)(yin)擎(qing)派(pai)出(chu)一(yi)個(ge)能夠(gou)在網(wang)上(shang)(shang)發(fa)現新網(wang)頁(ye)(ye)并(bing)抓文件的(de)(de)(de)(de)程(cheng)序(xu),這個(ge)程(cheng)序(xu)通常稱之為蜘蛛(zhu)(zhu)(Spider)。搜(sou)(sou)(sou)索(suo)(suo)引(yin)(yin)擎(qing)從(cong)已知的(de)(de)(de)(de)數據庫出(chu)發(fa),就像正常用(yong)戶(hu)的(de)(de)(de)(de)瀏(liu)覽器(qi)一(yi)樣(yang)訪問這些網(wang)頁(ye)(ye)并(bing)抓取文件。搜(sou)(sou)(sou)索(suo)(suo)引(yin)(yin)擎(qing)通過(guo)(guo)這些爬(pa)蟲去(qu)爬(pa)互聯網(wang)上(shang)(shang)的(de)(de)(de)(de)外(wai)鏈(lian),從(cong)這個(ge)網(wang)站爬(pa)到另一(yi)個(ge)網(wang)站,去(qu)跟蹤網(wang)頁(ye)(ye)中(zhong)的(de)(de)(de)(de)鏈(lian)接(jie)(jie),訪問更(geng)多的(de)(de)(de)(de)網(wang)頁(ye)(ye),這個(ge)過(guo)(guo)程(cheng)就叫爬(pa)行。這些新的(de)(de)(de)(de)網(wang)址會(hui)被存入數據庫等待(dai)搜(sou)(sou)(sou)索(suo)(suo)。所(suo)以(yi)跟蹤網(wang)頁(ye)(ye)鏈(lian)接(jie)(jie)是搜(sou)(sou)(sou)索(suo)(suo)引(yin)(yin)擎(qing)蜘蛛(zhu)(zhu)(Spider)發(fa)現新網(wang)址的(de)(de)(de)(de)最(zui)基本的(de)(de)(de)(de)方法(fa),所(suo)以(yi)反向鏈(lian)接(jie)(jie)成為搜(sou)(sou)(sou)索(suo)(suo)引(yin)(yin)擎(qing)優化(hua)的(de)(de)(de)(de)最(zui)基本因素(su)之一(yi)。搜(sou)(sou)(sou)索(suo)(suo)引(yin)(yin)擎(qing)抓取的(de)(de)(de)(de)頁(ye)(ye)面文件與用(yong)戶(hu)瀏(liu)覽器(qi)得到的(de)(de)(de)(de)完全一(yi)樣(yang),抓取的(de)(de)(de)(de)文件存入數據庫。
2、建立索引
蜘(zhi)蛛(zhu)抓取的頁面文件分(fen)解、分(fen)析,并以(yi)巨(ju)大表(biao)格的形式存入數據庫(ku),這(zhe)個過(guo)程即(ji)是索(suo)引(yin)(index)。在(zai)索(suo)引(yin)數據庫(ku)中,網頁文字內容,關鍵(jian)詞出現(xian)的位置、字體、顏色、加粗、斜體等相(xiang)關信息(xi)都有(you)相(xiang)應記錄。
3、搜索詞處理
用戶在搜(sou)索(suo)引(yin)擎界面輸入關(guan)鍵詞,單擊“搜(sou)索(suo)”按鈕(niu)后(hou),搜(sou)索(suo)引(yin)擎程序(xu)即對搜(sou)索(suo)詞進(jin)行處理,如中文特有(you)的(de)分(fen)詞處理,去(qu)除停止(zhi)詞,判斷是否(fou)需要(yao)啟動整合(he)搜(sou)索(suo),判斷是否(fou)有(you)拼寫錯誤或錯別字(zi)等情況。搜(sou)索(suo)詞的(de)處理必須十分(fen)快速。
4、排序
對搜索詞處理后,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,并且根據排名算法計算出哪些網頁應該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無(wu)法與(yu)人相比,這就是為什么網站(zhan)要(yao)進行搜索(suo)引擎優(you)化(SEO)。沒有SEO的幫(bang)助,搜索(suo)引擎常常并不能正確的返(fan)回(hui)最相關、最權威、最有用的信息。