聲紋識別原理
聲紋(wen)是用電(dian)聲學儀器顯(xian)示的(de)攜(xie)帶言(yan)(yan)語信息的(de)聲波(bo)頻譜。人(ren)類(lei)語言(yan)(yan)的(de)產生是人(ren)體語言(yan)(yan)中樞與發音器官之間(jian)一個復雜的(de)生理物理過程,人(ren)在(zai)講(jiang)話(hua)時使(shi)用的(de)發聲器官--舌、牙(ya)齒、喉頭、肺、鼻(bi)腔(qiang)在(zai)尺寸(cun)和形態方面每個人(ren)的(de)差(cha)異(yi)(yi)很大,所以任何(he)兩個人(ren)的(de)聲紋(wen)圖譜都有差(cha)異(yi)(yi)。這也使(shi)得聲紋(wen)識別也可以稱為身(shen)份認證的(de)一種(zhong)方式(shi)。
聲紋識別優缺點
1、聲紋識別的優勢在于:
(1)聲紋提取方便,可(ke)在不知不覺中完成,因此使用者的(de)接受程(cheng)度也(ye)高;
(2)獲(huo)取語音(yin)的識別成本低廉,使(shi)用簡(jian)單,一個麥克風(feng)即可(ke),在使(shi)用通訊設備(bei)時(shi)更(geng)無需額(e)外(wai)的錄音(yin)設備(bei);
(3)適合遠程身份確認,只需要一個麥克風或電話、手機就可以通(tong)(tong)過網路(通(tong)(tong)訊網絡(luo)或互聯(lian)網絡(luo))實(shi)現(xian)遠程登(deng)錄;
(4)聲紋辨認(ren)和確認(ren)的算法復雜度低(di);
(5)配合一些(xie)其他措施,如通過語音識別(bie)進行內容鑒別(bie)等,可以提(ti)高(gao)準(zhun)確率。這些(xie)優勢使得聲紋識別(bie)的應(ying)用(yong)越來越受到系統開發者(zhe)和用(yong)戶(hu)青(qing)睞。
2、聲紋識別的缺點:
當(dang)然,聲紋識(shi)別的(de)應用有一(yi)些缺點,比(bi)如同(tong)一(yi)個(ge)人的(de)聲音(yin)具有易變性(xing),易受(shou)身體狀況、年(nian)齡、情(qing)緒(xu)等(deng)(deng)(deng)的(de)影(ying)響;比(bi)如不(bu)同(tong)的(de)麥克風和信道對(dui)識(shi)別性(xing)能有影(ying)響;比(bi)如環境噪音(yin)對(dui)識(shi)別有干(gan)擾;又比(bi)如混合說話人的(de)情(qing)形下人的(de)聲紋特征不(bu)易提取等(deng)(deng)(deng)等(deng)(deng)(deng)。
聲紋識別的過程
聲紋識別(bie)的過程(cheng)包(bao)括:語(yu)音信號(hao)處理、聲紋特征提(ti)取(qu)、聲紋建(jian)模、聲紋比(bi)對(dui)、判別(bie)決策等。
聲紋識別匹配模式
聲紋識(shi)別(bie)技術(shu)的(de)(de)關(guan)鍵在于對各種(zhong)聲學特征(zheng)參數(shu)進行處理,并確定模式(shi)(shi)匹(pi)配方(fang)法,主要的(de)(de)模式(shi)(shi)匹(pi)配方(fang)法包括:
1、模板匹配(pei)方法:利(li)用動態時間彎折(DTW)以對準訓(xun)練(lian)和測試(shi)特征序列,主要用于固(gu)定詞組的應用(通(tong)常為文本相關(guan)任務);
2、最近(jin)鄰方(fang)法:訓練時保留所(suo)有(you)特征矢(shi)量(liang),識(shi)別時對每(mei)個矢(shi)量(liang)都(dou)找到訓練矢(shi)量(liang)中最近(jin)的K個,據此進行(xing)識(shi)別,通常模型存儲和相(xiang)似計算的量(liang)都(dou)很大;
3、神經網(wang)絡方法:有很(hen)多種(zhong)形式(shi),如多層感(gan)知、徑(jing)向基函數(RBF)等(deng),可以顯式(shi)訓練以區分說(shuo)話人(ren)和其(qi)(qi)背景(jing)說(shuo)話人(ren),其(qi)(qi)訓練量很(hen)大(da),且模型的可推廣性不好;
5、VQ聚類方法(如LBG):效果(guo)比較好(hao),算法復(fu)雜(za)度(du)也不高,和HMM方法配合起來更可以收到更好(hao)的效果(guo);
6、多(duo)項式分類器方法:有較高的精(jing)度,但模型存儲(chu)和計算量都比較大;
此外還有概(gai)率統(tong)計(ji)方(fang)法(fa)、動態(tai)時間規整(zheng)方(fang)法(fa)、矢量量化方(fang)法(fa)等等。
聲紋識別技術的難點
目前,聲紋識別技術(shu)的市場應用并不廣泛(fan),,但并非這項技術(shu)本身不成熟(shu),而是由(you)于實際商業應用場景的復雜(za)性,很可能導致(zhi)身份識別產生較大誤差。
首先,說話(hua)人的(de)(de)(de)語音聲學(xue)特(te)征不可避免(mian)地具有發(fa)展性和變(bian)異性,既便是(shi)同一個人,即(ji)便采集(ji)到的(de)(de)(de)兩段語音內容都(dou)是(shi)相同的(de)(de)(de),但(dan)是(shi)在(zai)不同的(de)(de)(de)時期(qi)或(huo)特(te)殊的(de)(de)(de)情境(jing)下,由于情緒、語速、疲勞程度等原因(yin),聲紋特(te)征也不盡一致;
其次,聲(sheng)紋(wen)特(te)征提取(qu)是(shi)在(zai)(zai)(zai)現實環境中進(jin)行(xing)的,如何降噪(zao)以及去混響(xiang)依然是(shi)聲(sheng)紋(wen)識別的一大難題。在(zai)(zai)(zai)外部環境中,各(ge)種噪(zao)音(yin)都會通過錄音(yin)設備采集(ji)進(jin)來,這(zhe)些(xie)噪(zao)音(yin)會在(zai)(zai)(zai)一定程度上混淆或(huo)者淹沒說(shuo)話人(ren)信(xin)息,使得聲(sheng)紋(wen)系(xi)統無(wu)法(fa)獲取(qu)準確的說(shuo)話人(ren)聲(sheng)紋(wen)特(te)征。因此,應用(yong)(yong)聲(sheng)紋(wen)識別技術的產品大多適合在(zai)(zai)(zai)相對(dui)安(an)靜的場合使用(yong)(yong)。