2022年4月,第十六屆國(guo)際語(yu)義(yi)評(ping)測(ce)(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大(da)(da)賽(sai)落下帷(wei)幕,科(ke)大(da)(da)訊(xun)飛(fei)在(zai)三項主要(yao)賽(sai)道中拿下冠(guan)軍,標志著科(ke)大(da)(da)訊(xun)飛(fei)在(zai)多語(yu)種語(yu)言(yan)理(li)解領域持(chi)續(xu)進(jin)階。
SemEval 2022評測由國際計算語言(yan)學(xue)協會(hui)(Association for Computational Linguistics, ACL)旗下(xia)SIGLEX主辦,參(can)賽者覆蓋(gai)國內、外一流高校及知名企業,包括達特(te)茅斯學(xue)院(yuan)、謝(xie)菲爾德大(da)學(xue)、華為(wei)、阿里達摩院(yuan)等,代表著最前沿國際技術和水(shui)平(ping)。
經過角(jiao)逐,科大訊(xun)飛(fei)分別(bie)在“多語(yu)種(zhong)新聞相似度評測任務(wu)(wu)”(Task 8)、“多語(yu)種(zhong)慣用語(yu)識(shi)別(bie)任務(wu)(wu)” 子(zi)賽道(dao)(dao)(Task 2: Subtask A one-shot)、“多語(yu)種(zhong)復雜命名(ming)實體識(shi)別(bie)任務(wu)(wu)”(Task 11)三個子(zi)賽道(dao)(dao)中拿下冠軍。
新聞相似度評價:目光如炬
本次(ci)SemEval 2022評測聚焦的Task 8是多語種新聞相似(si)度(du)評價任務。科(ke)大(da)訊飛與哈(ha)爾(er)濱(bin)工業大(da)學聯合組(zu)建的“哈(ha)工大(da)訊飛聯合實(shi)驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡稱HFL)以(yi)顯(xian)著(zhu)優勢摘得冠軍。
簡單(dan)來說(shuo),參賽隊伍需要在每組新(xin)(xin)(xin)聞中判斷是(shi)否描述了同一個事件,并以1-4分為兩篇新(xin)(xin)(xin)聞的相似度(du)打(da)分,其中包(bao)含了多(duo)達10種語言(yan),分別為阿拉伯(bo)語、德語、英語、西(xi)班牙(ya)語、法語、意大利語、波蘭語、俄語、土(tu)耳(er)其語和中文。但新(xin)(xin)(xin)聞相似度(du)究竟是(shi)什么?讓我(wo)們用(yong)一則示(shi)例(li)為大家(jia)解讀。
圖中(zhong)列舉了(le)兩(liang)篇相(xiang)似(si)度(du)極高(gao)的(de)新聞(wen)稿(gao)件(jian),參賽隊伍必(bi)須將(jiang)文(wen)中(zhong)相(xiang)似(si)的(de)主要(yao)元素剝離(li)出來并逐一(yi)分析,比如地理信息(xi)、敘事技巧(qiao)、實體(ti)、語(yu)氣、時間及風格(ge),最終得出兩(liang)篇文(wen)章的(de)相(xiang)似(si)度(du)與差異化。
與普通(tong)的文章相比,該項(xiang)比賽更強調跨語言理解能力,除了寫作風格和敘(xu)述(shu)方式外(wai)(wai),還需要把握文章中描述(shu)的具體事件。通(tong)俗來說,該項(xiang)技術可以甄(zhen)別外(wai)(wai)網的一些新聞報道是否存在偏(pian)差與曲解,從而有效預防虛假(jia)信(xin)息(xi)、不良信(xin)息(xi)的傳播。
科大訊飛在這(zhe)樣的(de)賽道上(shang)拔得頭籌,充(chong)分(fen)展示了在跨(kua)語言理解能力上(shang)的(de)強硬實力。
慣用語檢測:熟能生巧
哈工(gong)大訊(xun)飛(fei)聯(lian)合實驗室拿下的(de)(de)第二項任務(wu)冠軍(jun),便(bian)是Task2 Subtask A的(de)(de)慣用語(yu)檢測。通俗來說(shuo),無(wu)論你是哪國人,在日常(chang)表達中(zhong)都有一類短(duan)(duan)語(yu)的(de)(de)固定用法(fa),并且該固定用法(fa)通常(chang)與短(duan)(duan)語(yu)的(de)(de)字面(mian)語(yu)義不(bu)同,我們會將(jiang)這些短(duan)(duan)語(yu)稱為(wei)“慣用語(yu)”。想要理解(jie)包含(han)慣用語(yu)的(de)(de)句子,首先需要判斷句子中(zhong)的(de)(de)多(duo)字短(duan)(duan)語(yu)是否為(wei)慣用語(yu),比如“說(shuo)曹(cao)操(cao),曹(cao)操(cao)到。”句中(zhong)的(de)(de)曹(cao)操(cao)是否真實存在。
該任(ren)務(wu)的形式(shi)便(bian)是給定一個目標語(yu)(yu)句(ju),包(bao)括其(qi)上下文(wen)和多字(zi)短語(yu)(yu),繼而判(pan)斷(duan)該語(yu)(yu)句(ju)中(zhong)的多字(zi)短語(yu)(yu)用法究竟(jing)是慣(guan)用語(yu)(yu)還是字(zi)面意思。該任(ren)務(wu)為多語(yu)(yu)言任(ren)務(wu),包(bao)含(han)英語(yu)(yu)、葡萄牙語(yu)(yu)、加(jia)(jia)利(li)西亞(ya)語(yu)(yu)三種(zhong)語(yu)(yu)言。其(qi)中(zhong)加(jia)(jia)利(li)西亞(ya)語(yu)(yu)沒有在訓(xun)練集(ji)中(zhong)出現(xian)過(guo),因此(ci)科大訊飛代表隊需要在不同語(yu)(yu)言之間進行遷(qian)移學(xue)習。
還(huan)是不(bu)懂?別擔心(xin),讓我(wo)們來(lai)看(kan)一則示例。
如例(li)所示,Literal表(biao)示字面意(yi)思(si),第一(yi)句話(hua)可(ke)翻(fan)譯為:當(dang)你從網(wang)中(zhong)抓一(yi)條(tiao)大(da)(da)魚(yu)時(shi),最(zui)好撐(cheng)住它(ta)的腰(yao)。Idiomatic表(biao)示慣用(yong)語,所以第二(er)句話(hua)中(zhong)再次(ci)出(chu)現了(le)大(da)(da)魚(yu)一(yi)詞,但卻不是(shi)簡單的字面意(yi)思(si),而是(shi)“大(da)(da)人(ren)物”。
所以(yi)該(gai)(gai)任務要求參(can)賽隊伍(wu)區分(fen)不同句子(zi)中同一(yi)個(ge)詞(ci)的(de)不同語義,這需(xu)要強大的(de)分(fen)析及(ji)跨語言理解(jie)能力。有(you)了該(gai)(gai)項技術,在日常寫作(zuo)和翻譯工作(zuo)中,即可有(you)效鑒別(bie)慣用語的(de)表(biao)達用意,極大提高內(nei)容(rong)準確率。
科大訊飛不(bu)負眾望,再摘(zhai)桂冠。
復雜命名實體識別:披荊斬棘
這第三(san)冠有(you)多難(nan)?光(guang)聽名字就覺得(de)復(fu)(fu)雜:多語(yu)種復(fu)(fu)雜命名實體識別任務(wu)(MutiCoNER)。科(ke)大訊飛聯合中(zhong)(zhong)國科(ke)學(xue)技術(shu)大學(xue)語(yu)音及(ji)語(yu)言信(xin)息(xi)處(chu)理(li)國家工程(cheng)研(yan)究中(zhong)(zhong)心迎難(nan)而上,在(zai)該項任務(wu)中(zhong)(zhong)一舉拿下三(san)個子賽道冠軍。
我們先拆解一下MuticoNER這個詞,Muti是multilingual(多語言)的簡稱,Co即是complex(復雜),而(er)NER則是Named Entity Recognition,又稱(cheng)作“命名實(shi)體(ti)識別(bie)”,是指識別(bie)文本中(zhong)具有特定意義的實(shi)體(ti),主要包括(kuo)人名、地名、機構名、專有名詞等(deng)。
該任(ren)務(wu)是一個多(duo)(duo)語(yu)(yu)言(yan)賽(sai)道(dao)數(shu)據(ju)集,包(bao)含11項單獨語(yu)(yu)言(yan)命名實體評(ping)(ping)測(ce)(ce)任(ren)務(wu),以(yi)(yi)及2項多(duo)(duo)語(yu)(yu)言(yan)統一建模的評(ping)(ping)測(ce)(ce)任(ren)務(wu)。該榜(bang)單數(shu)據(ju)來源于Wikidata(維基數(shu)據(ju)),數(shu)據(ju)量龐大(da)且極具應用(yong)價值。參賽(sai)團(tuan)隊(dui)需要在單個語(yu)(yu)言(yan)以(yi)(yi)及多(duo)(duo)個語(yu)(yu)言(yan)混合(he)的文本數(shu)據(ju)中,精準預測(ce)(ce)不(bu)同語(yu)(yu)言(yan)實體的類別(bie)標簽。該任(ren)務(wu)采(cai)用(yong)國際通(tong)用(yong)的槽位F1評(ping)(ping)價指標, 我(wo)們在多(duo)(duo)語(yu)(yu)言(yan)混合(he)、中文、孟加(jia)拉語(yu)(yu)賽(sai)道(dao)上,分別(bie)以(yi)(yi)92.9%、81.6%、84.2%的F1成績登頂。
這項任務究竟有多難?舉個例子:NER是指從用戶文本中按照業務需求識別出實體的類別,之前任務基本上一句話中僅會出現一到兩個實體,本次任務需要抽出多實體增加實體抽取難度,同時需要具備多語種能力,例如【(皇馬)[organization]除了首輪負于[克星拉科](organization)以外,現在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表現出色(se)。】既要識別出多個相關(guan)實(shi)體,同時(shi)是各語種夾雜(za)的文本。
此前針對中文和英文需要單獨進(jin)行(xing)模(mo)(mo)型建模(mo)(mo),此次有關賽(sai)道的挑戰是僅使用一個模(mo)(mo)型來可以完(wan)成不同語種任務(wu),能夠快速識(shi)別復雜、專有詞匯,提高準確率(lv)。
拒絕紙上談兵,技術應用要落地
當(dang)前,人類(lei)已(yi)進入“人、機、物”智能(neng)(neng)互(hu)聯時代,智能(neng)(neng)語(yu)(yu)(yu)音(yin)是(shi)這個時代最為關鍵的入口之(zhi)一(yi),有助(zhu)于實現語(yu)(yu)(yu)言大(da)互(hu)通,建設人類(lei)命運共(gong)同體。科大(da)訊飛始終保持初(chu)心、堅持源頭(tou)核心技(ji)術創新,在(zai)語(yu)(yu)(yu)音(yin)、語(yu)(yu)(yu)義(yi)等國(guo)際賽事(shi)中為國(guo)爭光。
在(zai)(zai)(zai)2021年11月舉辦的國際低(di)資源多種(zhong)(zhong)語(yu)音(yin)識別(bie)競賽(sai)(sai)OpenASR中,科大訊飛參加了所(suo)有15個語(yu)種(zhong)(zhong)受限(xian)賽(sai)(sai)道和7個語(yu)種(zhong)(zhong)非受限(xian)賽(sai)(sai)道,并全部(bu)取得了第一名,而在(zai)(zai)(zai)SemEval2022多語(yu)種(zhong)(zhong)NLP領域中取得佳(jia)績也標志著科大訊飛在(zai)(zai)(zai)多語(yu)言理解(jie)與跨語(yu)言遷移能力(li)再(zai)上新臺階,從多語(yu)種(zhong)(zhong)語(yu)音(yin)到多語(yu)種(zhong)(zhong)語(yu)言都有著頂尖(jian)技(ji)術實力(li)。
而在2022年(nian)的北京冬奧(ao)會(hui)和冬殘奧(ao)會(hui)上,科大訊飛作為“官方自動語音轉(zhuan)換與(yu)翻譯獨(du)家供(gong)應商(shang)”,為所(suo)有觀(guan)眾展現了一(yi)場“無障礙溝通”的體育(yu)盛會(hui)。
基于強(qiang)大的(de)多語種(zhong)語音語言技(ji)術,我們可以做到(dao)語種(zhong)足夠(gou)(gou)全、翻譯足夠(gou)(gou)準、反應(ying)足夠(gou)(gou)快(kuai),支持(chi)包括冬奧(ao)體育(yu)在(zai)內的(de)16大行(xing)業(ye)領(ling)域(yu)翻譯,在(zai)冬奧(ao)應(ying)用(yong)場景下,中(zhong)文(wen)與英/俄/法/西/日(ri)等(deng)重點語種(zhong)的(de)翻譯準確率超過90%,平均每句語音翻譯響應(ying)時(shi)間(jian)不超過1.5秒,一方(fang)面幫助(zhu)各(ge)國觀眾、游客快(kuai)速掌握賽事(shi)信息,另(ling)一方(fang)面我們特(te)別希望幫助(zhu)聽障(zhang)人士運(yun)用(yong)科技(ji)的(de)手段聽得見奧(ao)運(yun)文(wen)字,看(kan)得見奧(ao)運(yun)聲音。
值得一(yi)提的(de)(de)是,科大訊(xun)飛(fei)AI虛(xu)(xu)擬人(ren)“愛加(i+)”也成為了冬奧(ao)會的(de)(de)一(yi)名“虛(xu)(xu)擬志愿者”。在(zai)北京冬奧(ao)小屋(wu)中,愛加可以用(yong)多種(zhong)語言(yan)與各國運(yun)(yun)動員(yuan)進行(xing)面(mian)(mian)對面(mian)(mian)的(de)(de)交流,助(zhu)力冬奧(ao)的(de)(de)無障礙(ai)溝通。科大訊(xun)飛(fei)運(yun)(yun)用(yong)語音識(shi)(shi)別、語音合成、口(kou)唇驅(qu)動、面(mian)(mian)部驅(qu)動、肢(zhi)體動作(zuo)驅(qu)動等多項(xiang)核心技術,打造(zao)出虛(xu)(xu)擬形象自(zi)動化內容生產方案,讓(rang)虛(xu)(xu)擬人(ren)不僅會說普通話,同(tong)時(shi)支持31種(zhong)語言(yan)及方言(yan),是不折不扣的(de)(de)“語言(yan)通”,不僅能(neng)進行(xing)面(mian)(mian)對面(mian)(mian)的(de)(de)冬奧(ao)賽(sai)事、賽(sai)程實時(shi)互(hu)動交流,還能(neng)陪你玩一(yi)把(ba)冬奧(ao)知識(shi)(shi)游戲大PK,周邊(bian)交通、文化、旅游等咨詢問(wen)答也不在(zai)話下(xia)。
除此(ci)之外,在教育、醫療、司法等(deng)場景中(zhong)的各類(lei)行業人工智(zhi)能應用(yong)中(zhong),多(duo)(duo)語種(zhong)語音交互(hu)系統(tong)都將發(fa)揮重要作用(yong)。經過多(duo)(duo)年的技(ji)術積累,除了(le)中(zhong)英以外,當前科大訊飛已經具備其他69種(zhong)語言的語音識(shi)別(bie)能力(li),其中(zhong)已經有35個語種(zhong)準確率已經超過90%,并已在新加坡、俄(e)羅(luo)斯(si)、印(yin)度、日本等(deng)國家部署了(le)海外站點,將持續為(wei)海內外開發(fa)者提(ti)供(gong)語音識(shi)別(bie)、語音合成、機(ji)器翻譯、圖文(wen)識(shi)別(bie)等(deng)語音語言服務。
如何更好地研(yan)發包括中文(wen)在內的多(duo)語種語音及(ji)語言技術(shu)的AI能力并實現(xian)大規模應用落地,如何更好地用人工智能技術(shu)服務社會、建設美(mei)好世界,是我們不斷奮斗努力的方向(xiang)。
未來,科大(da)訊飛將不(bu)斷開展人(ren)(ren)工智能源頭技術創新,助力中(zhong)國人(ren)(ren)工智能在全球贏得話語權,實現更多人(ren)(ren)工智能創新應(ying)用真正解決(jue)社(she)會剛需(xu),蓬(peng)勃向上,生(sheng)生(sheng)不(bu)息。