蘋果

華為

歐珀

小米

VIVO

佳能

優學派

大疆

惠普

戴爾

科大訊飛拿下SemEval三項冠軍，多語種語言理解再上新臺階

本文章由注冊用戶沉靜時光上傳提供 2024-05-22 ☆ 評論 0

摘要：第十六屆國際語義評測大賽落下帷幕，科大訊飛在三項主要賽道中拿下冠軍，標志著科大訊飛在多語種語言理解領域持續進階。未來，科大訊飛將不斷開展人工智能源頭技術創新，助力中國人工智能在全球贏得話語權，實現更多人工智能創新應用真正解決社會剛需，蓬勃向上，生生不息。

2022年4月，第十六屆國(guo)際語(yu)義(yi)評(ping)測(ce)（The 16th International Workshop on Semantic Evaluation， SemEval 2022）大(da)(da)賽(sai)落下帷(wei)幕，科(ke)大(da)(da)訊(xun)飛(fei)在(zai)三項主要(yao)賽(sai)道中拿下冠(guan)軍，標志著科(ke)大(da)(da)訊(xun)飛(fei)在(zai)多語(yu)種語(yu)言(yan)理(li)解領域持(chi)續(xu)進(jin)階。

SemEval 2022評測由國際計算語言(yan)學(xue)協會(hui)（Association for Computational Linguistics， ACL）旗下(xia)SIGLEX主辦，參(can)賽者覆蓋(gai)國內、外一流高校及知名企業，包括達特(te)茅斯學(xue)院(yuan)、謝(xie)菲爾德大(da)學(xue)、華為(wei)、阿里達摩院(yuan)等，代表著最前沿國際技術和水(shui)平(ping)。

經過角(jiao)逐，科大訊(xun)飛(fei)分別(bie)在“多語(yu)種(zhong)新聞相似度評測任務(wu)(wu)”（Task 8）、“多語(yu)種(zhong)慣用語(yu)識(shi)別(bie)任務(wu)(wu)” 子(zi)賽道(dao)(dao)（Task 2： Subtask A one-shot）、“多語(yu)種(zhong)復雜命名(ming)實體識(shi)別(bie)任務(wu)(wu)”（Task 11）三個子(zi)賽道(dao)(dao)中拿下冠軍。

新聞相似度評價：目光如炬

本次(ci)SemEval 2022評測聚焦的Task 8是多語種新聞相似(si)度(du)評價任務。科(ke)大(da)訊飛與哈(ha)爾(er)濱(bin)工業大(da)學聯合組(zu)建的“哈(ha)工大(da)訊飛聯合實(shi)驗室”（Joint Laboratory of HIT and iFLYTEK Research，簡稱HFL）以(yi)顯(xian)著(zhu)優勢摘得冠軍。

簡單(dan)來說(shuo)，參賽隊伍需要在每組新(xin)(xin)(xin)聞中判斷是(shi)否描述了同一個事件，并以1-4分為兩篇新(xin)(xin)(xin)聞的相似度(du)打(da)分，其中包(bao)含了多(duo)達10種語言(yan)，分別為阿拉伯(bo)語、德語、英語、西(xi)班牙(ya)語、法語、意大利語、波蘭語、俄語、土(tu)耳(er)其語和中文。但新(xin)(xin)(xin)聞相似度(du)究竟是(shi)什么？讓我(wo)們用(yong)一則示(shi)例(li)為大家(jia)解讀。

圖中(zhong)列舉了(le)兩(liang)篇相(xiang)似(si)度(du)極高(gao)的(de)新聞(wen)稿(gao)件(jian)，參賽隊伍必(bi)須將(jiang)文(wen)中(zhong)相(xiang)似(si)的(de)主要(yao)元素剝離(li)出來并逐一(yi)分析，比如地理信息(xi)、敘事技巧(qiao)、實體(ti)、語(yu)氣、時間及風格(ge)，最終得出兩(liang)篇文(wen)章的(de)相(xiang)似(si)度(du)與差異化。

與普通(tong)的文章相比，該項(xiang)比賽更強調跨語言理解能力，除了寫作風格和敘(xu)述(shu)方式外(wai)(wai)，還需要把握文章中描述(shu)的具體事件。通(tong)俗來說，該項(xiang)技術可以甄(zhen)別外(wai)(wai)網的一些新聞報道是否存在偏(pian)差與曲解，從而有效預防虛假(jia)信(xin)息(xi)、不良信(xin)息(xi)的傳播。

科大訊飛在這(zhe)樣的(de)賽道上(shang)拔得頭籌，充(chong)分(fen)展示了在跨(kua)語言理解能力上(shang)的(de)強硬實力。

慣用語檢測：熟能生巧

哈工(gong)大訊(xun)飛(fei)聯(lian)合實驗室拿下的(de)(de)第二項任務(wu)冠軍(jun)，便(bian)是Task2 Subtask A的(de)(de)慣用語(yu)檢測。通俗來說(shuo)，無(wu)論你是哪國人，在日常(chang)表達中(zhong)都有一類短(duan)(duan)語(yu)的(de)(de)固定用法(fa)，并且該固定用法(fa)通常(chang)與短(duan)(duan)語(yu)的(de)(de)字面(mian)語(yu)義不(bu)同，我們會將(jiang)這些短(duan)(duan)語(yu)稱為(wei)“慣用語(yu)”。想要理解(jie)包含(han)慣用語(yu)的(de)(de)句子，首先需要判斷句子中(zhong)的(de)(de)多(duo)字短(duan)(duan)語(yu)是否為(wei)慣用語(yu)，比如“說(shuo)曹(cao)操(cao)，曹(cao)操(cao)到。”句中(zhong)的(de)(de)曹(cao)操(cao)是否真實存在。

該任(ren)務(wu)的形式(shi)便(bian)是給定一個目標語(yu)(yu)句(ju)，包(bao)括其(qi)上下文(wen)和多字(zi)短語(yu)(yu)，繼而判(pan)斷(duan)該語(yu)(yu)句(ju)中(zhong)的多字(zi)短語(yu)(yu)用法究竟(jing)是慣(guan)用語(yu)(yu)還是字(zi)面意思。該任(ren)務(wu)為多語(yu)(yu)言任(ren)務(wu)，包(bao)含(han)英語(yu)(yu)、葡萄牙語(yu)(yu)、加(jia)(jia)利(li)西亞(ya)語(yu)(yu)三種(zhong)語(yu)(yu)言。其(qi)中(zhong)加(jia)(jia)利(li)西亞(ya)語(yu)(yu)沒有在訓(xun)練集(ji)中(zhong)出現(xian)過(guo)，因此(ci)科大訊飛代表隊需要在不同語(yu)(yu)言之間進行遷(qian)移學(xue)習。

還(huan)是不(bu)懂？別擔心(xin)，讓我(wo)們來(lai)看(kan)一則示例。

如例(li)所示，Literal表(biao)示字面意(yi)思(si)，第一(yi)句話(hua)可(ke)翻(fan)譯為：當(dang)你從網(wang)中(zhong)抓一(yi)條(tiao)大(da)(da)魚(yu)時(shi)，最(zui)好撐(cheng)住它(ta)的腰(yao)。Idiomatic表(biao)示慣用(yong)語，所以第二(er)句話(hua)中(zhong)再次(ci)出(chu)現了(le)大(da)(da)魚(yu)一(yi)詞，但卻不是(shi)簡單的字面意(yi)思(si)，而是(shi)“大(da)(da)人(ren)物”。

所以(yi)該(gai)(gai)任務要求參(can)賽隊伍(wu)區分(fen)不同句子(zi)中同一(yi)個(ge)詞(ci)的(de)不同語義，這需(xu)要強大的(de)分(fen)析及(ji)跨語言理解(jie)能力。有(you)了該(gai)(gai)項技術，在日常寫作(zuo)和翻譯工作(zuo)中，即可有(you)效鑒別(bie)慣用語的(de)表(biao)達用意，極大提高內(nei)容(rong)準確率。

科大訊飛不(bu)負眾望，再摘(zhai)桂冠。

復雜命名實體識別：披荊斬棘

這第三(san)冠有(you)多難(nan)？光(guang)聽名字就覺得(de)復(fu)(fu)雜：多語(yu)種復(fu)(fu)雜命名實體識別任務(wu)（MutiCoNER）。科(ke)大訊飛聯合中(zhong)(zhong)國科(ke)學(xue)技術(shu)大學(xue)語(yu)音及(ji)語(yu)言信(xin)息(xi)處(chu)理(li)國家工程(cheng)研(yan)究中(zhong)(zhong)心迎難(nan)而上，在(zai)該項任務(wu)中(zhong)(zhong)一舉拿下三(san)個子賽道冠軍。

我們先拆解一下MuticoNER這個詞，Muti是multilingual（多語言）的簡稱，Co即是complex（復雜），而(er)NER則是Named Entity Recognition，又稱(cheng)作“命名實(shi)體(ti)識別(bie)”，是指識別(bie)文本中(zhong)具有特定意義的實(shi)體(ti)，主要包括(kuo)人名、地名、機構名、專有名詞等(deng)。

該任(ren)務(wu)是一個多(duo)(duo)語(yu)(yu)言(yan)賽(sai)道(dao)數(shu)據(ju)集，包(bao)含11項單獨語(yu)(yu)言(yan)命名實體評(ping)(ping)測(ce)(ce)任(ren)務(wu)，以(yi)(yi)及2項多(duo)(duo)語(yu)(yu)言(yan)統一建模的評(ping)(ping)測(ce)(ce)任(ren)務(wu)。該榜(bang)單數(shu)據(ju)來源于Wikidata（維基數(shu)據(ju)），數(shu)據(ju)量龐大(da)且極具應用(yong)價值。參賽(sai)團(tuan)隊(dui)需要在單個語(yu)(yu)言(yan)以(yi)(yi)及多(duo)(duo)個語(yu)(yu)言(yan)混合(he)的文本數(shu)據(ju)中，精準預測(ce)(ce)不(bu)同語(yu)(yu)言(yan)實體的類別(bie)標簽。該任(ren)務(wu)采(cai)用(yong)國際通(tong)用(yong)的槽位F1評(ping)(ping)價指標，我(wo)們在多(duo)(duo)語(yu)(yu)言(yan)混合(he)、中文、孟加(jia)拉語(yu)(yu)賽(sai)道(dao)上，分別(bie)以(yi)(yi)92.9%、81.6%、84.2%的F1成績登頂。

這項任務究竟有多難？舉個例子：NER是指從用戶文本中按照業務需求識別出實體的類別，之前任務基本上一句話中僅會出現一到兩個實體，本次任務需要抽出多實體增加實體抽取難度，同時需要具備多語種能力，例如【（皇馬）[organization]除了首輪負于[克星拉科]（organization）以外，現在已是四連勝。（Rafael van der Vaart）[PER]、（Gonzalo Higuaín）[PER]和(Arjen Robben）[PER]的表現出色(se)。】既要識別出多個相關(guan)實(shi)體，同時(shi)是各語種夾雜(za)的文本。

此前針對中文和英文需要單獨進(jin)行(xing)模(mo)(mo)型建模(mo)(mo)，此次有關賽(sai)道的挑戰是僅使用一個模(mo)(mo)型來可以完(wan)成不同語種任務(wu)，能夠快速識(shi)別復雜、專有詞匯，提高準確率(lv)。

拒絕紙上談兵，技術應用要落地

當(dang)前，人類(lei)已(yi)進入“人、機、物”智能(neng)(neng)互(hu)聯時代，智能(neng)(neng)語(yu)(yu)(yu)音(yin)是(shi)這個時代最為關鍵的入口之(zhi)一(yi)，有助(zhu)于實現語(yu)(yu)(yu)言大(da)互(hu)通，建設人類(lei)命運共(gong)同體。科大(da)訊飛始終保持初(chu)心、堅持源頭(tou)核心技(ji)術創新，在(zai)語(yu)(yu)(yu)音(yin)、語(yu)(yu)(yu)義(yi)等國(guo)際賽事(shi)中為國(guo)爭光。

在(zai)(zai)(zai)2021年11月舉辦的國際低(di)資源多種(zhong)(zhong)語(yu)音(yin)識別(bie)競賽(sai)(sai)OpenASR中，科大訊飛參加了所(suo)有15個語(yu)種(zhong)(zhong)受限(xian)賽(sai)(sai)道和7個語(yu)種(zhong)(zhong)非受限(xian)賽(sai)(sai)道，并全部(bu)取得了第一名，而在(zai)(zai)(zai)SemEval2022多語(yu)種(zhong)(zhong)NLP領域中取得佳(jia)績也標志著科大訊飛在(zai)(zai)(zai)多語(yu)言理解(jie)與跨語(yu)言遷移能力(li)再(zai)上新臺階，從多語(yu)種(zhong)(zhong)語(yu)音(yin)到多語(yu)種(zhong)(zhong)語(yu)言都有著頂尖(jian)技(ji)術實力(li)。

而在2022年(nian)的北京冬奧(ao)會(hui)和冬殘奧(ao)會(hui)上，科大訊飛作為“官方自動語音轉(zhuan)換與(yu)翻譯獨(du)家供(gong)應商(shang)”，為所(suo)有觀(guan)眾展現了一(yi)場“無障礙溝通”的體育(yu)盛會(hui)。

基于強(qiang)大的(de)多語種(zhong)語音語言技(ji)術，我們可以做到(dao)語種(zhong)足夠(gou)(gou)全、翻譯足夠(gou)(gou)準、反應(ying)足夠(gou)(gou)快(kuai)，支持(chi)包括冬奧(ao)體育(yu)在(zai)內的(de)16大行(xing)業(ye)領(ling)域(yu)翻譯，在(zai)冬奧(ao)應(ying)用(yong)場景下，中(zhong)文(wen)與英/俄/法/西/日(ri)等(deng)重點語種(zhong)的(de)翻譯準確率超過90%，平均每句語音翻譯響應(ying)時(shi)間(jian)不超過1.5秒，一方(fang)面幫助(zhu)各(ge)國觀眾、游客快(kuai)速掌握賽事(shi)信息，另(ling)一方(fang)面我們特(te)別希望幫助(zhu)聽障(zhang)人士運(yun)用(yong)科技(ji)的(de)手段聽得見奧(ao)運(yun)文(wen)字，看(kan)得見奧(ao)運(yun)聲音。

值得一(yi)提的(de)(de)是，科大訊(xun)飛(fei)AI虛(xu)(xu)擬人(ren)“愛加（i+）”也成為了冬奧(ao)會的(de)(de)一(yi)名“虛(xu)(xu)擬志愿者”。在(zai)北京冬奧(ao)小屋(wu)中，愛加可以用(yong)多種(zhong)語言(yan)與各國運(yun)(yun)動員(yuan)進行(xing)面(mian)(mian)對面(mian)(mian)的(de)(de)交流，助(zhu)力冬奧(ao)的(de)(de)無障礙(ai)溝通。科大訊(xun)飛(fei)運(yun)(yun)用(yong)語音識(shi)(shi)別、語音合成、口(kou)唇驅(qu)動、面(mian)(mian)部驅(qu)動、肢(zhi)體動作(zuo)驅(qu)動等多項(xiang)核心技術，打造(zao)出虛(xu)(xu)擬形象自(zi)動化內容生產方案，讓(rang)虛(xu)(xu)擬人(ren)不僅會說普通話，同(tong)時(shi)支持31種(zhong)語言(yan)及方言(yan)，是不折不扣的(de)(de)“語言(yan)通”，不僅能(neng)進行(xing)面(mian)(mian)對面(mian)(mian)的(de)(de)冬奧(ao)賽(sai)事、賽(sai)程實時(shi)互(hu)動交流，還能(neng)陪你玩一(yi)把(ba)冬奧(ao)知識(shi)(shi)游戲大PK，周邊(bian)交通、文化、旅游等咨詢問(wen)答也不在(zai)話下(xia)。

除此(ci)之外，在教育、醫療、司法等(deng)場景中(zhong)的各類(lei)行業人工智(zhi)能應用(yong)中(zhong)，多(duo)(duo)語種(zhong)語音交互(hu)系統(tong)都將發(fa)揮重要作用(yong)。經過多(duo)(duo)年的技(ji)術積累，除了(le)中(zhong)英以外，當前科大訊飛已經具備其他69種(zhong)語言的語音識(shi)別(bie)能力(li)，其中(zhong)已經有35個語種(zhong)準確率已經超過90%，并已在新加坡、俄(e)羅(luo)斯(si)、印(yin)度、日本等(deng)國家部署了(le)海外站點，將持續為(wei)海內外開發(fa)者提(ti)供(gong)語音識(shi)別(bie)、語音合成、機(ji)器翻譯、圖文(wen)識(shi)別(bie)等(deng)語音語言服務。

如何更好地研(yan)發包括中文(wen)在內的多(duo)語種語音及(ji)語言技術(shu)的AI能力并實現(xian)大規模應用落地，如何更好地用人工智能技術(shu)服務社會、建設美(mei)好世界，是我們不斷奮斗努力的方向(xiang)。

未來，科大(da)訊飛將不(bu)斷開展人(ren)(ren)工智能源頭技術創新，助力中(zhong)國人(ren)(ren)工智能在全球贏得話語權，實現更多人(ren)(ren)工智能創新應(ying)用真正解決(jue)社(she)會剛需(xu)，蓬(peng)勃向上，生(sheng)生(sheng)不(bu)息。

標簽： 人工智能世界科技世界語言世界國家科技數碼

網站提醒和聲明

本(ben)站為注冊用戶提(ti)供信息(xi)(xi)存儲空間(jian)服務(wu)，非“MAIGOO編輯(ji)”、“MAIGOO榜單研究員”、“MAIGOO文(wen)章編輯(ji)員”上傳提(ti)供的文(wen)章/文(wen)字均是注冊用戶自主發布上傳，不代表本(ben)站觀點，版權歸原作(zuo)者所有(you)，如(ru)有(you)侵權、虛假信息(xi)(xi)、錯誤信息(xi)(xi)或任何問(wen)題，請及時聯(lian)系我們，我們將在第一時間(jian)刪除或更(geng)正(zheng)。申請刪除>> 糾錯>> 投訴侵權>> 網頁上相關信息的知識產權歸網站方所有(包括但不限于文字、圖片、圖表、著作權、商標權、為用(yong)戶提(ti)供的商業信息等)，非經許可不得抄襲或使用(yong)。

提交說(shuo)明：快速提交發布>> 提交資訊幫助>> 注冊登錄>>