所謂智(zhi)能(neng)語(yu)音(yin)產(chan)業(ye)主要(yao)指通(tong)過語(yu)音(yin)合成技(ji)術和(he)語(yu)音(yin)識(shi)別技(ji)術,為用(yong)戶提供各(ge)種(zhong)服務(wu)(wu)的(de)產(chan)業(ye)。一(yi)般(ban)來說(shuo),用(yong)戶只需要(yao)用(yong)說(shuo)話的(de)方(fang)式給(gei)服務(wu)(wu)終端發送命令,就能(neng)實現相應的(de)服務(wu)(wu)。這一(yi)產(chan)業(ye)從上世(shi)紀六十(shi)年代就已經出(chu)(chu)現,但并不為普通(tong)消(xiao)費(fei)者所熟知,消(xiao)費(fei)者對其(qi)認知度也(ye)比較(jiao)低。近年來,隨著各(ge)大科技(ji)公司先后(hou)推出(chu)(chu)Siri等智(zhi)能(neng)語(yu)音(yin)服務(wu)(wu),這一(yi)服務(wu)(wu)以及相關產(chan)業(ye)也(ye)開始被普通(tong)消(xiao)費(fei)者和(he)投資界所關注。
“您好(hao),我的朋友,到吃(chi)藥的時間(jian)了!”當(dang)某個(ge)聲(sheng)音在你耳邊出現的時候,你可(ke)能不(bu)會想到,這也許僅是預設好(hao)的一段程序。
語音交互是家庭智能機器人中的重要部分。這臺機器人可以和(he)你(ni)進行語(yu)音(yin)交流。當你(ni)高興地(di)夸獎它時,他(ta)會呵(he)呵(he)地(di)笑出(chu)聲(sheng)來,當你(ni)和(he)它聊天(tian)時,它會根(gen)據你(ni)的(de)話題說出(chu)相關的(de)內容。當然,如果你(ni)家里有老人和(he)孩(hai)子,它還將扮(ban)演一位保(bao)姆的(de)角色。為老人提供(gong)心理慰(wei)藉(jie),與孩(hai)子唱歌玩耍,它都是一個最(zui)佳(jia)的(de)幫手。
只(zhi)需喊一聲“Hi,TV”,電(dian)視(shi)(shi)就(jiu)可以開(kai)啟語音控制系(xi)統,比(bi)如你說“最近天氣預報”,然后電(dian)視(shi)(shi)屏(ping)幕上就(jiu)會閃現出最近一周的本地天氣情況。隨著智(zhi)能電(dian)視(shi)(shi)功能的日(ri)漸豐富和強大,僅依靠一個簡單的電(dian)視(shi)(shi)遙(yao)控器(qi)已經滿足不了智(zhi)能電(dian)視(shi)(shi)的操控需求。
引入語音識(shi)別和語音合成技術(shu)的智能(neng)語音電視不(bu)僅能(neng)聽懂用戶(hu)說話(hua)并(bing)作出反應,而(er)且還能(neng)“說出話(hua)”來(lai)。用戶(hu)憑借(jie)語音指令可以輕松完成換臺(tai)、電視節目查詢、網(wang)絡瀏(liu)覽/搜(sou)索(suo)、文字輸入等操作,而(er)電視能(neng)做的,就是根(gen)據(ju)用戶(hu)的需求讀出搜(sou)索(suo)到的內容。
未來,在每個家(jia)庭網絡上所有通過電力(li)運轉的設(she)備,都(dou)可以(yi)被(bei)人(ren)們的語音控制,比如可以(yi)控制室(shi)內的燈光、溫度等。
在駕駛環(huan)境下,用戶與(yu)車的交流,可以(yi)通過(guo)對話來實現,說出“想回家”,汽車會根據(ju)你家的位置設定好最佳路線,并開始導航。說出“加油(you)站(zhan)(zhan)”,幾公里范圍內(nei)的加油(you)站(zhan)(zhan)將(jiang)逐一(yi)由車載語音系統播報出來。
在(zai)車(che)(che)載環(huan)境下,用戶的(de)注意(yi)力主(zhu)要集中在(zai)于駕駛,人與(yu)車(che)(che)的(de)交互必須在(zai)不影(ying)響駕駛的(de)前提條件下進行,語(yu)音識(shi)別(bie)技術提供了安全便捷的(de)交互方式,用戶只需(xu)動口(kou),就可(ke)以(yi)滿足(zu)在(zai)行車(che)(che)過(guo)程中的(de)相關需(xu)求。
語(yu)音操控作為人機溝通的重要手段,拍照、打電話、錄像,你只需(xu)說(shuo)出你的需(xu)求,它就將(jiang)在你眼(yan)前展現(xian)出你想(xiang)要的結果。
智能(neng)眼(yan)鏡(jing)、智能(neng)手環(huan)、智能(neng)手表,這些(xie)互(hu)聯網時代的智能(neng)化(hua)設(she)備(bei),最(zui)大限度地利用了語音控制(zhi)技術,它將讓(rang)未來的生活(huo)變(bian)得不可思議。
“聽話”的瀏覽器(qi)離我們(men)并(bing)不遙遠(yuan)。或許(xu)要不了(le)多久,我們(men)就能拋開鼠標和觸摸板,通過聲控瀏覽器(qi)完(wan)成瀏覽網頁、發送郵件等。比如,你(ni)可以通過“暗一點”“亮一點”“字體大(da)一號”等語音命令來控制瀏覽器(qi)。
傳統的密碼(ma)恢復機制是回答(da)一(yi)些(xie)預設的安全(quan)問(wen)(wen)題(ti)(ti),如“你(ni)的出生地在哪里”等,但(dan)這(zhe)類問(wen)(wen)題(ti)(ti)有(you)些(xie)時候容(rong)易被黑客破解,用戶(hu)也可能記不(bu)起預設的問(wen)(wen)題(ti)(ti)和答(da)案,特別是企業員工,就常(chang)常(chang)因為忘(wang)記密碼(ma)而求助于IT部門。
為(wei)此,一(yi)家外國(guo)公司推出了一(yi)項(xiang)名為(wei)FastReset(快速設置)的(de)新服(fu)務。該服(fu)務可先(xian)讓員(yuan)工通過手機(ji)或電話(hua)注冊自己的(de)聲紋(wen),一(yi)旦員(yuan)工忘(wang)記密碼需要重置,只需對著登錄界(jie)面念(nian)一(yi)段短(duan)語(比方說“芝麻開門(men)”)即可完成。
很(hen)多小朋友都有這(zhe)樣的(de)夢想:擁(yong)有一個會說話(hua)的(de)玩具,就像喜劇電影(ying)《泰迪熊(xiong)》里面(mian)的(de)TED一樣。
在ToyTalk的官方網站上,這個夢想有了變成現實的可能:小女孩完成家庭作業后,把平板立起來,打開ToyTalk應用,把泰迪熊玩具放在平板攝像頭前方,小女孩就能和在平板里“活過來”的泰(tai)迪(di)熊對話了(le)!
語音交互對于智能家居最直接的(de)(de)(de)意義在于(yu)(yu)把(ba)智(zhi)(zhi)(zhi)能(neng)(neng)家(jia)居變得真正(zheng)的(de)(de)(de)智(zhi)(zhi)(zhi)能(neng)(neng)起(qi)來(lai),不管品牌與技術多么的(de)(de)(de)先(xian)進,人機(ji)交互界面多么的(de)(de)(de)友善,都(dou)沒有語音(yin)(yin)交互控制來(lai)的(de)(de)(de)簡便直接。科技讓(rang)生活(huo)更智(zhi)(zhi)(zhi)能(neng)(neng),語音(yin)(yin)讓(rang)交互更便捷、快捷。所以(yi),如果智(zhi)(zhi)(zhi)能(neng)(neng)家(jia)居能(neng)(neng)與語音(yin)(yin)交互融于(yu)(yu)一體(ti),那么智(zhi)(zhi)(zhi)能(neng)(neng)家(jia)居產業也(ye)許會迎(ying)來(lai)一次劃時代的(de)(de)(de)突破(po)。
用(yong)(yong)戶必(bi)須(xu)在離手機比(bi)較近的(de)(de)(de)距(ju)(ju)離內(nei)說話,但在智(zhi)能(neng)(neng)(neng)家(jia)居環(huan)(huan)境(jing)中,用(yong)(yong)戶和智(zhi)能(neng)(neng)(neng)終端之間的(de)(de)(de)距(ju)(ju)離被大大增加了,用(yong)(yong)戶能(neng)(neng)(neng)隨(sui)意用(yong)(yong)語音(yin)控(kong)制(zhi)智(zhi)能(neng)(neng)(neng)家(jia)居的(de)(de)(de)一(yi)個(ge)必(bi)要(yao)條件就是在無論你在客(ke)廳(ting)哪個(ge)角落發出指令,設備都能(neng)(neng)(neng)準確的(de)(de)(de)識(shi)別(bie)(bie),語音(yin)識(shi)別(bie)(bie)技(ji)術必(bi)須(xu)突破(po)距(ju)(ju)離的(de)(de)(de)障礙。目前室內(nei)的(de)(de)(de)語音(yin)交互(hu)受到背景噪音(yin)、其他人聲干擾、回聲、混響(xiang)等多重復雜因素影響(xiang),只能(neng)(neng)(neng)在相對安靜、近距(ju)(ju)離的(de)(de)(de)環(huan)(huan)境(jing)下使用(yong)(yong)。
加(jia)之中(zhong)(zhong)國的(de)語(yu)系(xi)、方言、口(kou)音相(xiang)當多(duo),再加(jia)上中(zhong)(zhong)文的(de)多(duo)語(yu)義性,導致語(yu)音識別(bie)率能力(li)不(bu)高。同時,在語(yu)義識別(bie)上,也(ye)存在上下文的(de)關(guan)聯帶來(lai)識別(bie)的(de)學習難、定位難和建立(li)模型難等問題。
語音識別(bie)技術(shu)(shu)就是(shi)(shi)讓機(ji)器通過識別(bie)和理(li)解過程把語音信號轉變為相應的文本或命(ming)令的技術(shu)(shu),與機(ji)器進行語音交(jiao)流,讓機(ji)器明白你(ni)說什么(me)。語音識別(bie)是(shi)(shi)一(yi)門交(jiao)叉學科,語音識別(bie)技術(shu)(shu)與語音合(he)成(cheng)技術(shu)(shu)結合(he)使人們(men)能夠甩(shuai)掉鍵盤,通過語音命(ming)令進行操作,語音技術(shu)(shu)的應用已經(jing)成(cheng)為一(yi)個具有競(jing)爭性的新興高技術(shu)(shu)產業。
語(yu)音識(shi)別(bie)技(ji)術(shu)相當于給(gei)計算機系統(tong)裝上“耳朵”,使(shi)其具備“能聽(ting)”的(de)功能,該技(ji)術(shu)經過語(yu)音信號處(chu)理、語(yu)音特征處(chu)理、模型訓練及(ji)解碼引擎等復雜(za)步(bu)驟,使(shi)機器(qi)最終能夠將語(yu)音中的(de)內容、說話人、語(yu)種等信息識(shi)別(bie)出來(lai)。語(yu)音控制(zhi)功能的(de)實現,與(yu)用(yong)(yong)戶的(de)使(shi)用(yong)(yong)習慣(guan)高(gao)度關聯,目前的(de)語(yu)音控制(zhi)功能實現方式可(ke)分為近場語(yu)音識(shi)別(bie)和遠場語(yu)音識(shi)別(bie)二個大類。
在對音(yin)箱等(deng)設備(bei)(bei)進行語(yu)音(yin)控制時(shi),往(wang)往(wang)該設備(bei)(bei)處于播放歌曲的(de)(de)(de)(de)狀態。由(you)于麥(mai)克(ke)(ke)風安裝在音(yin)箱上(shang),麥(mai)克(ke)(ke)風和說話人之間(jian)的(de)(de)(de)(de)距離要遠大(da)于麥(mai)克(ke)(ke)風和揚聲(sheng)器之間(jian)的(de)(de)(de)(de)距離,在這樣的(de)(de)(de)(de)情況下(xia),采用(yong)內(nei)外(wai)兼顧的(de)(de)(de)(de)方(fang)(fang)法(fa)進行解決。內(nei)部使(shi)用(yong)特殊的(de)(de)(de)(de)回聲(sheng)消除(chu)算法(fa)從內(nei)部減(jian)小噪(zao)音(yin)對麥(mai)克(ke)(ke)風的(de)(de)(de)(de)影響。另外(wai)對于震(zhen)動(dong)帶來的(de)(de)(de)(de)非線(xian)性(xing)干擾(rao),傳統的(de)(de)(de)(de)線(xian)性(xing)回聲(sheng)消除(chu)方(fang)(fang)法(fa)失(shi)效(xiao)了(le),因此可以(yi)使(shi)用(yong)非線(xian)性(xing)回聲(sheng)消除(chu)算法(fa)提高內(nei)部噪(zao)聲(sheng)消除(chu)的(de)(de)(de)(de)效(xiao)果。在外(wai)部結構設計方(fang)(fang)面,使(shi)用(yong)精心(xin)設計的(de)(de)(de)(de)麥(mai)克(ke)(ke)風陣列(lie)減(jian)震(zhen)結構,使(shi)多個(ge)麥(mai)克(ke)(ke)風和它(ta)所連(lian)接的(de)(de)(de)(de)電路板之間(jian)的(de)(de)(de)(de)震(zhen)動(dong)減(jian)小到(dao)最小,從而最大(da)程度的(de)(de)(de)(de)控制高聲(sheng)強導致的(de)(de)(de)(de)音(yin)箱本體震(zhen)動(dong)對拾音(yin)的(de)(de)(de)(de)干擾(rao)。
近(jin)(jin)場語(yu)音識別需要(yao)用戶點擊啟動,并且用戶與終端(duan)設(she)備(bei)的距離比較近(jin)(jin),如手機或(huo)其(qi)他終端(duan)設(she)備(bei),可直接借(jie)助這(zhe)些終端(duan)設(she)備(bei)直接實(shi)現控制功能。
遠場(chang)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)識(shi)(shi)別,以麥克風陣列遠距(ju)離拾取的(de)(de)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)數(shu)據作為(wei)輸入數(shu)據,通過語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)識(shi)(shi)別的(de)(de)算(suan)法將語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)信(xin)號(hao)轉寫成文(wen)字的(de)(de)技(ji)術(shu)。雖然和(he)(he)近場(chang)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)識(shi)(shi)別技(ji)術(shu)在原(yuan)理(li)上是(shi)相(xiang)同的(de)(de),但是(shi)由于音(yin)(yin)(yin)(yin)(yin)(yin)源和(he)(he)麥克風之間的(de)(de)空間距(ju)離增大,在聲波(bo)傳(chuan)播過程中(zhong)會(hui)出(chu)現信(xin)號(hao)強度(du)的(de)(de)衰減和(he)(he)各種(zhong)噪音(yin)(yin)(yin)(yin)(yin)(yin)干擾,因此需(xu)要特殊(shu)的(de)(de)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)數(shu)據拾取和(he)(he)預處理(li)技(ji)術(shu);不(bu)同的(de)(de)拾取設備(bei)和(he)(he)預處理(li)技(ji)術(shu)常常會(hui)使用于語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)識(shi)(shi)別的(de)(de)聲波(bo)信(xin)號(hao)特征發生改變,因此針對不(bu)同的(de)(de)遠場(chang)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)拾取技(ji)術(shu),需(xu)要對語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)識(shi)(shi)別引擎(qing)進(jin)行(xing)定制化(hua)適配和(he)(he)優(you)化(hua)。
當語(yu)音信(xin)號在(zai)(zai)傳(chuan)播過(guo)程(cheng)中有(you)所衰減,影響(xiang)(xiang)采(cai)(cai)集信(xin)號的(de)(de)(de)(de)強度和分(fen)辨(bian)率,使用的(de)(de)(de)(de)靈敏度非(fei)常(chang)高的(de)(de)(de)(de)指向(xiang)性(xing)麥克(ke)風(feng),同時(shi)將麥克(ke)風(feng)的(de)(de)(de)(de)參(can)數(shu)(shu)調整到(dao)適合(he)遠(yuan)場語(yu)音數(shu)(shu)據(ju)(ju)(ju)的(de)(de)(de)(de)模式,可以最大限度采(cai)(cai)集清晰的(de)(de)(de)(de)遠(yuan)場語(yu)音信(xin)號。語(yu)音指令(ling)聲(sheng)波(bo)(bo)(bo)在(zai)(zai)傳(chuan)輸過(guo)程(cheng)中受到(dao)周圍(wei)噪(zao)音的(de)(de)(de)(de)污染,降低聲(sheng)波(bo)(bo)(bo)信(xin)號的(de)(de)(de)(de)信(xin)噪(zao)比,使用定向(xiang)波(bo)(bo)(bo)速成形(xing)技術,抑制(zhi)方向(xiang)外的(de)(de)(de)(de)噪(zao)音,從(cong)而減少噪(zao)音對語(yu)音信(xin)號的(de)(de)(de)(de)干擾。在(zai)(zai)一個房間里(li),麥克(ke)風(feng)拾(shi)取的(de)(de)(de)(de)聲(sheng)波(bo)(bo)(bo)不(bu)僅(jin)(jin)僅(jin)(jin)直接來自(zi)于音源,還有(you)音源發出后經過(guo)墻(qiang)壁反射的(de)(de)(de)(de)遲到(dao)的(de)(de)(de)(de)聲(sheng)波(bo)(bo)(bo),形(xing)成聲(sheng)音的(de)(de)(de)(de)殘留(liu),造成混響(xiang)(xiang)。利用多個麥克(ke)風(feng)采(cai)(cai)集的(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju),通過(guo)多通道回聲(sheng)消(xiao)除算(suan)法,將這(zhe)些不(bu)同時(shi)間達到(dao)的(de)(de)(de)(de)聲(sheng)音數(shu)(shu)據(ju)(ju)(ju)分(fen)離開(kai)來,從(cong)而消(xiao)除了混響(xiang)(xiang)對聲(sheng)音數(shu)(shu)據(ju)(ju)(ju)的(de)(de)(de)(de)影響(xiang)(xiang)。
在遠(yuan)距離(li)用(yong)語音(yin)(yin)(yin)進(jin)行(xing)(xing)操控的(de)(de)(de)時(shi)候,聲(sheng)音(yin)(yin)(yin)可能來自不同(tong)(tong)方(fang)向的(de)(de)(de)不同(tong)(tong)人(ren)(ren)。因此首先要確定(ding)哪些(xie)是發指令(ling)的(de)(de)(de)聲(sheng)音(yin)(yin)(yin),哪些(xie)不是。使用(yong)的(de)(de)(de)麥克(ke)風(feng)陣列波速成(cheng)形算法,將360度空(kong)間垂直(zhi)劃分成(cheng)若(ruo)干區(qu)(qu)域(yu)(yu),每(mei)個(ge)麥克(ke)風(feng)負責檢測一個(ge)指定(ding)的(de)(de)(de)區(qu)(qu)域(yu)(yu)。當(dang)某(mou)個(ge)空(kong)間區(qu)(qu)域(yu)(yu)里(li)面檢測到有(you)喚醒詞出現時(shi),對(dui)應(ying)于該空(kong)間區(qu)(qu)域(yu)(yu)的(de)(de)(de)麥克(ke)風(feng)拾音(yin)(yin)(yin)功能就(jiu)(jiu)被(bei)增(zeng)強,其他區(qu)(qu)域(yu)(yu)的(de)(de)(de)麥克(ke)風(feng)拾音(yin)(yin)(yin)就(jiu)(jiu)被(bei)抑(yi)制。從(cong)而實現對(dui)聲(sheng)音(yin)(yin)(yin)進(jin)行(xing)(xing)有(you)方(fang)向有(you)角度的(de)(de)(de)拾取,避(bi)免了(le)周圍電(dian)視機里(li)的(de)(de)(de)說話聲(sheng)音(yin)(yin)(yin)、其他人(ren)(ren)交談對(dui)語音(yin)(yin)(yin)指令(ling)的(de)(de)(de)影響。
語(yu)(yu)音喚(huan)(huan)醒,是(shi)指通過含有(you)特定喚(huan)(huan)醒詞的(de)語(yu)(yu)音輸入來(lai)“觸發”語(yu)(yu)音識(shi)別系統以(yi)實現(xian)后續的(de)語(yu)(yu)音交互。由于(yu)功(gong)耗(hao)等方面(mian)的(de)限制,智能(neng)(neng)設(she)(she)備(bei)很難24小時都保持在(zai)激(ji)活(huo)狀(zhuang)態;因此,如果要(yao)在(zai)家里自由地控(kong)制智能(neng)(neng)家居設(she)(she)備(bei),還(huan)需(xu)要(yao)有(you)即(ji)時“喚(huan)(huan)醒”功(gong)能(neng)(neng),也就是(shi)給(gei)智能(neng)(neng)設(she)(she)備(bei)加入“語(yu)(yu)音喚(huan)(huan)醒”技(ji)術。通過該技(ji)術,任(ren)何人(ren)在(zai)任(ren)何環(huan)境、任(ren)何時間,無論是(shi)近場(chang)(chang)還(huan)是(shi)遠場(chang)(chang),面(mian)向設(she)(she)備(bei)直接說出預設(she)(she)的(de)喚(huan)(huan)醒詞,就能(neng)(neng)激(ji)活(huo)產品(pin)的(de)識(shi)別引擎,從而真正實現(xian)全程無觸控(kong)的(de)語(yu)(yu)音交互。
通過上面的介紹,相信大家對智能家居語音控制技術有了一定的了解,對智能家居語音控制技術的背景和功能有了深刻認識。生活在當代的我們,除了追求物質上的溫飽、衣服上的溫暖同時,還更加追求于精神上的方便、輕松、舒適。因此我們要不斷與時俱進,掌握新的智能技術。相信在不久的將來這種智能家居會(hui)成為你生(sheng)活中的好伙(huo)伴(ban),好幫手!