2022年4月,第(di)十六屆國際語(yu)義(yi)評測(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大(da)(da)賽(sai)落下帷幕(mu),科大(da)(da)訊飛在三項主要賽(sai)道中拿下冠軍,標志(zhi)著科大(da)(da)訊飛在多語(yu)種語(yu)言理解領(ling)域持續進階。
SemEval 2022評測(ce)由國(guo)際(ji)計(ji)算語(yu)言學協會(Association for Computational Linguistics, ACL)旗下(xia)SIGLEX主辦,參賽者覆蓋國(guo)內、外(wai)一流高校及知名企業,包括(kuo)達(da)特茅(mao)斯學院、謝菲爾德大學、華為、阿里達(da)摩院等,代(dai)表著最前沿國(guo)際(ji)技術和(he)水平(ping)。
經(jing)過角(jiao)逐,科大訊飛分別在“多語(yu)種(zhong)新(xin)聞相似度評測任(ren)務(wu)”(Task 8)、“多語(yu)種(zhong)慣用語(yu)識別任(ren)務(wu)” 子賽道(Task 2: Subtask A one-shot)、“多語(yu)種(zhong)復雜命名實(shi)體(ti)識別任(ren)務(wu)”(Task 11)三個子賽道中拿(na)下(xia)冠(guan)軍。
新聞相似度評價:目光如炬
本次SemEval 2022評測聚焦的Task 8是多語種新(xin)聞相似度(du)評價任務。科大(da)訊(xun)飛與(yu)哈爾濱工(gong)業大(da)學聯合(he)組建(jian)的“哈工(gong)大(da)訊(xun)飛聯合(he)實驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡稱HFL)以顯著優勢摘得(de)冠軍。
簡單來說,參賽隊伍需要在每組新(xin)聞(wen)中(zhong)(zhong)判斷(duan)是否(fou)描述了(le)同一個事件,并(bing)以(yi)1-4分(fen)為(wei)(wei)兩篇新(xin)聞(wen)的相似(si)(si)度(du)打分(fen),其中(zhong)(zhong)包含了(le)多達10種語(yu)(yu)言,分(fen)別為(wei)(wei)阿(a)拉伯語(yu)(yu)、德(de)語(yu)(yu)、英語(yu)(yu)、西班牙語(yu)(yu)、法(fa)語(yu)(yu)、意大(da)利語(yu)(yu)、波(bo)蘭語(yu)(yu)、俄(e)語(yu)(yu)、土耳其語(yu)(yu)和中(zhong)(zhong)文。但新(xin)聞(wen)相似(si)(si)度(du)究(jiu)竟是什么?讓(rang)我們用一則示例為(wei)(wei)大(da)家解讀。
圖中列舉(ju)了(le)兩(liang)篇相(xiang)似度(du)極高(gao)的(de)新聞稿件,參賽隊伍必須將文(wen)中相(xiang)似的(de)主要元素剝離出(chu)來并(bing)逐一分析(xi),比如地(di)理(li)信息、敘(xu)事(shi)技巧(qiao)、實體、語氣、時間及風格,最終得出(chu)兩(liang)篇文(wen)章(zhang)的(de)相(xiang)似度(du)與差(cha)異化。
與普通(tong)的(de)文(wen)章(zhang)相比,該項(xiang)比賽更強調(diao)跨(kua)語言理解(jie)(jie)能力(li),除了寫作(zuo)風格和敘述方式外(wai),還(huan)需(xu)要把(ba)握(wo)文(wen)章(zhang)中描述的(de)具體事件。通(tong)俗來說,該項(xiang)技術可以甄別外(wai)網(wang)的(de)一些(xie)新聞報道(dao)是否存在偏(pian)差(cha)與曲解(jie)(jie),從而有效(xiao)預防虛假(jia)信(xin)息(xi)、不良信(xin)息(xi)的(de)傳播(bo)。
科大(da)訊飛(fei)在這樣(yang)的(de)賽(sai)道上拔得頭籌,充分展示了(le)在跨語言理(li)解(jie)能力上的(de)強(qiang)硬實力。
慣用語檢測:熟能生巧
哈工大訊(xun)飛聯(lian)合(he)實(shi)驗室拿下(xia)的(de)(de)第(di)二項(xiang)任務冠(guan)軍,便是Task2 Subtask A的(de)(de)慣(guan)(guan)(guan)用(yong)語(yu)(yu)檢測。通(tong)俗(su)來說,無論你是哪國人,在日(ri)常表達中都有一類短語(yu)(yu)的(de)(de)固(gu)定(ding)用(yong)法,并且該(gai)固(gu)定(ding)用(yong)法通(tong)常與短語(yu)(yu)的(de)(de)字面語(yu)(yu)義不同,我們會將這(zhe)些短語(yu)(yu)稱為(wei)“慣(guan)(guan)(guan)用(yong)語(yu)(yu)”。想要理(li)解包含慣(guan)(guan)(guan)用(yong)語(yu)(yu)的(de)(de)句(ju)子,首先需要判斷句(ju)子中的(de)(de)多字短語(yu)(yu)是否(fou)為(wei)慣(guan)(guan)(guan)用(yong)語(yu)(yu),比如“說曹操,曹操到(dao)。”句(ju)中的(de)(de)曹操是否(fou)真實(shi)存(cun)在。
該任(ren)務的形式便是(shi)給定一個目標語(yu)(yu)句(ju),包(bao)(bao)括其上(shang)下(xia)文和多字(zi)短語(yu)(yu),繼(ji)而判斷該語(yu)(yu)句(ju)中(zhong)(zhong)(zhong)的多字(zi)短語(yu)(yu)用法究竟(jing)是(shi)慣用語(yu)(yu)還是(shi)字(zi)面意思。該任(ren)務為多語(yu)(yu)言(yan)任(ren)務,包(bao)(bao)含(han)英語(yu)(yu)、葡萄牙(ya)語(yu)(yu)、加利西亞語(yu)(yu)三種語(yu)(yu)言(yan)。其中(zhong)(zhong)(zhong)加利西亞語(yu)(yu)沒有在訓(xun)練集(ji)中(zhong)(zhong)(zhong)出現過,因此(ci)科大訊飛代表隊(dui)需(xu)要在不同(tong)語(yu)(yu)言(yan)之間進行遷(qian)移學習(xi)。
還是不懂?別(bie)擔心,讓我們來看一則(ze)示例。
如例所示,Literal表示字面意思,第一句話可翻譯為:當你從網中抓一條大魚(yu)時,最(zui)好撐住它的腰。Idiomatic表示慣用語,所以第二句話中再次出(chu)現了(le)大魚(yu)一詞,但(dan)卻不(bu)是簡單(dan)的字面意思,而是“大人物(wu)”。
所以該任務要(yao)求參賽隊伍區(qu)分不同句子中同一(yi)個詞的(de)(de)不同語義(yi),這(zhe)需要(yao)強大的(de)(de)分析及跨(kua)語言理解(jie)能(neng)力。有(you)了該項技術,在日常寫作和翻譯工作中,即可有(you)效鑒別慣用(yong)語的(de)(de)表達(da)用(yong)意,極(ji)大提(ti)高內(nei)容準確率。
科(ke)大訊(xun)飛(fei)不負(fu)眾(zhong)望,再摘桂(gui)冠。
復雜命名實體識別:披荊斬棘
這第三冠有多難(nan)?光聽名(ming)(ming)字就覺得復雜:多語(yu)種復雜命名(ming)(ming)實體(ti)識別任務(MutiCoNER)。科大(da)訊飛聯合中(zhong)國科學(xue)技(ji)術大(da)學(xue)語(yu)音及語(yu)言信息處理(li)國家工(gong)程研究中(zhong)心(xin)迎難(nan)而(er)上,在(zai)該項任務中(zhong)一舉(ju)拿(na)下(xia)三個子賽道冠軍。
我們先拆解一下MuticoNER這個詞,Muti是multilingual(多語言)的簡稱,Co即是complex(復(fu)雜),而NER則是(shi)Named Entity Recognition,又稱作“命名(ming)實體(ti)識(shi)別(bie)”,是(shi)指識(shi)別(bie)文(wen)本中具(ju)有特定意(yi)義的實體(ti),主(zhu)要包括人名(ming)、地名(ming)、機(ji)構名(ming)、專有名(ming)詞(ci)等。
該任務(wu)是一個多語(yu)言(yan)(yan)(yan)賽(sai)(sai)(sai)道數(shu)據(ju)(ju)集,包含11項單(dan)獨語(yu)言(yan)(yan)(yan)命名實體(ti)評(ping)測任務(wu),以(yi)及2項多語(yu)言(yan)(yan)(yan)統一建模的(de)(de)評(ping)測任務(wu)。該榜(bang)單(dan)數(shu)據(ju)(ju)來(lai)源(yuan)于Wikidata(維基數(shu)據(ju)(ju)),數(shu)據(ju)(ju)量龐(pang)大(da)且極具應用(yong)價值。參賽(sai)(sai)(sai)團隊需(xu)要在單(dan)個語(yu)言(yan)(yan)(yan)以(yi)及多個語(yu)言(yan)(yan)(yan)混合的(de)(de)文(wen)本數(shu)據(ju)(ju)中(zhong),精準(zhun)預測不同語(yu)言(yan)(yan)(yan)實體(ti)的(de)(de)類別標(biao)簽(qian)。該任務(wu)采用(yong)國際(ji)通用(yong)的(de)(de)槽位(wei)F1評(ping)價指標(biao), 我們在多語(yu)言(yan)(yan)(yan)混合、中(zhong)文(wen)、孟加拉語(yu)賽(sai)(sai)(sai)道上(shang),分別以(yi)92.9%、81.6%、84.2%的(de)(de)F1成績登頂。
這項任務究竟有多難?舉個例子:NER是指從用戶文本中按照業務需求識別出實體的類別,之前任務基本上一句話中僅會出現一到兩個實體,本次任務需要抽出多實體增加實體抽取難度,同時需要具備多語種能力,例如【(皇馬)[organization]除了首輪負于[克星拉科](organization)以外,現在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的(de)表現(xian)出色。】既(ji)要識別出多(duo)個(ge)相關實體,同時是各語(yu)種夾雜的(de)文本。
此(ci)前(qian)針(zhen)對中(zhong)文和英文需要單獨進行模(mo)型建模(mo),此(ci)次有關賽道的挑戰是僅使(shi)用一個模(mo)型來可以完成不(bu)同(tong)語種任務,能夠快速識別復雜、專有詞匯,提高準確率(lv)。
拒絕紙上談兵,技術應用要落地
當前,人類(lei)已進入“人、機、物”智能互聯時(shi)代(dai),智能語(yu)(yu)音是這個時(shi)代(dai)最為(wei)關鍵的入口之一,有(you)助于實現語(yu)(yu)言大(da)互通,建(jian)設(she)人類(lei)命運共同體。科大(da)訊飛始(shi)終保持初(chu)心(xin)、堅持源頭核心(xin)技(ji)術(shu)創(chuang)新,在語(yu)(yu)音、語(yu)(yu)義等(deng)國(guo)(guo)際賽事中為(wei)國(guo)(guo)爭光。
在2021年11月(yue)舉辦的(de)國際低資源多種(zhong)(zhong)語(yu)音識別競賽(sai)(sai)OpenASR中,科(ke)大訊飛參(can)加了所有15個語(yu)種(zhong)(zhong)受限賽(sai)(sai)道(dao)和(he)7個語(yu)種(zhong)(zhong)非受限賽(sai)(sai)道(dao),并(bing)全部取得了第一名(ming),而在SemEval2022多語(yu)種(zhong)(zhong)NLP領域中取得佳績也標志著科(ke)大訊飛在多語(yu)言理解與跨語(yu)言遷移(yi)能力(li)再上新(xin)臺階,從多語(yu)種(zhong)(zhong)語(yu)音到(dao)多語(yu)種(zhong)(zhong)語(yu)言都有著頂尖技術實力(li)。
而在(zai)2022年的北京冬奧(ao)(ao)會和冬殘奧(ao)(ao)會上,科大(da)訊飛作(zuo)為(wei)“官方自(zi)動語(yu)音轉換與翻譯獨(du)家供(gong)應商”,為(wei)所有觀眾展現了一場“無障礙溝通”的體育(yu)盛會。
基于強(qiang)大的多語(yu)種語(yu)音語(yu)言技術,我們可(ke)以做到語(yu)種足夠全(quan)、翻(fan)譯足夠準(zhun)、反應足夠快,支(zhi)持包括冬奧(ao)(ao)體育(yu)在內(nei)的16大行業領域翻(fan)譯,在冬奧(ao)(ao)應用場景下,中文與(yu)英/俄/法/西/日等重點語(yu)種的翻(fan)譯準(zhun)確率超過(guo)90%,平均每句(ju)語(yu)音翻(fan)譯響應時(shi)間不超過(guo)1.5秒,一(yi)方面幫(bang)助各國觀眾、游客快速掌握賽事信息(xi),另一(yi)方面我們特別希望(wang)幫(bang)助聽障(zhang)人士運(yun)用科(ke)技的手段聽得見(jian)奧(ao)(ao)運(yun)文字(zi),看得見(jian)奧(ao)(ao)運(yun)聲音。
值得一提(ti)的(de)是(shi),科大(da)訊飛(fei)AI虛擬人(ren)(ren)“愛加(jia)(i+)”也(ye)成為了冬(dong)奧(ao)(ao)(ao)會的(de)一名“虛擬志愿者”。在北京冬(dong)奧(ao)(ao)(ao)小屋中,愛加(jia)可(ke)以(yi)用多種語言(yan)與各國運動(dong)員進行面(mian)(mian)對面(mian)(mian)的(de)交流(liu),助力冬(dong)奧(ao)(ao)(ao)的(de)無障礙溝通。科大(da)訊飛(fei)運用語音識(shi)別、語音合成、口唇驅動(dong)、面(mian)(mian)部驅動(dong)、肢(zhi)體(ti)動(dong)作驅動(dong)等(deng)多項核心(xin)技術,打造出虛擬形(xing)象自動(dong)化內容(rong)生產方(fang)案,讓虛擬人(ren)(ren)不僅會說普通話(hua),同時(shi)支(zhi)持31種語言(yan)及方(fang)言(yan),是(shi)不折(zhe)不扣的(de)“語言(yan)通”,不僅能進行面(mian)(mian)對面(mian)(mian)的(de)冬(dong)奧(ao)(ao)(ao)賽(sai)事、賽(sai)程(cheng)實時(shi)互動(dong)交流(liu),還能陪你玩一把冬(dong)奧(ao)(ao)(ao)知識(shi)游(you)戲大(da)PK,周邊交通、文化、旅(lv)游(you)等(deng)咨詢問答也(ye)不在話(hua)下。
除此之外,在教(jiao)育、醫療(liao)、司法等(deng)場(chang)景(jing)中(zhong)的各類行業(ye)人工智能(neng)應用中(zhong),多語種語音(yin)(yin)交(jiao)互系統都將發(fa)揮重要作(zuo)用。經(jing)(jing)過多年的技(ji)術積(ji)累,除了中(zhong)英以外,當前(qian)科大訊飛(fei)已經(jing)(jing)具備其(qi)他69種語言的語音(yin)(yin)識(shi)別能(neng)力,其(qi)中(zhong)已經(jing)(jing)有35個語種準確率已經(jing)(jing)超過90%,并已在新加坡、俄(e)羅(luo)斯、印(yin)度、日本等(deng)國家(jia)部署了海(hai)外站點(dian),將持續為海(hai)內外開發(fa)者(zhe)提供語音(yin)(yin)識(shi)別、語音(yin)(yin)合(he)成、機器翻譯、圖(tu)文識(shi)別等(deng)語音(yin)(yin)語言服務。
如(ru)何更(geng)好地(di)研(yan)發包括中文在(zai)內的多語(yu)種語(yu)音(yin)及語(yu)言技術的AI能(neng)力并實現大(da)規模應用落地(di),如(ru)何更(geng)好地(di)用人工智能(neng)技術服務社會、建設(she)美好世界,是我們(men)不(bu)斷奮斗努力的方(fang)向。
未(wei)來(lai),科大訊飛將不斷開展人(ren)工(gong)智能源頭技術創(chuang)(chuang)新(xin),助(zhu)力中國人(ren)工(gong)智能在(zai)全球贏得話語權,實(shi)現更多人(ren)工(gong)智能創(chuang)(chuang)新(xin)應用真正解決社會剛需,蓬勃向(xiang)上,生生不息。