2022年6月(yue),浪(lang)潮“源1.0”大模型登頂中(zhong)文語(yu)(yu)言(yan)能力(li)理(li)(li)解(jie)和(he)生成(cheng)評測(ce)基(ji)(ji)準(zhun)CUGE總(zong)榜(bang)榜(bang)首,并獲得(de)語(yu)(yu)言(yan)理(li)(li)解(jie)(篇章級)、語(yu)(yu)言(yan)生成(cheng)、對話交互、多語(yu)(yu)言(yan)、數學(xue)推(tui)理(li)(li)等5項評測(ce)最佳成(cheng)績。這(zhe)是繼源1.0攬獲權(quan)威中(zhong)文語(yu)(yu)言(yan)評測(ce)基(ji)(ji)準(zhun)CLUE榜(bang)單的零樣本學(xue)習(xi)和(he)小樣本學(xue)習(xi)兩(liang)類總(zong)榜(bang)冠軍后,再(zai)次在評測(ce)中(zhong)展現強大實力(li)。
CUGE(Chinese Language Understanding and Generation Evaluation)智源指數是由清(qing)華大(da)學(xue)、北京(jing)大(da)學(xue)、北京(jing)智源研究院(yuan)等高校機構共同建(jian)立的中文機器語言(yan)(yan)能力評測(ce)基準,該基準針對當前(qian)自然(ran)語言(yan)(yan)處理和人工(gong)智能發展(zhan)新范(fan)式,面(mian)向具有“通用語言(yan)(yan)能力”的預訓練模(mo)型(xing),全面(mian)系統、多層次(ci)、多維度(du)地評測(ce)大(da)模(mo)型(xing)能力。
源1.0領跑多類綜合語言場景
在語言理(li)(li)(li)解(jie)(篇章級)評測中,源(yuan)1.0僅用時11分鐘(zhong),便完(wan)成數千篇閱讀理(li)(li)(li)解(jie)回(hui)答4000多個問題,以86.9高分的(de)成績位居(ju)榜首,展現出頂尖的(de)語言理(li)(li)(li)解(jie)能力。基于源(yuan)1.0大(da)模型(xing)強(qiang)大(da)的(de)閱讀理(li)(li)(li)解(jie)能力及高速處理(li)(li)(li)大(da)量樣(yang)本(ben)(ben)的(de)特點,未來將加速勞動密集型(xing)文(wen)本(ben)(ben)處理(li)(li)(li)等(deng)行業變(bian)革,如應用于智能客服根據用戶(hu)提供的(de)信息在產品文(wen)檔中快速找到解(jie)決方案及智能司法、智能招聘系統(tong)等(deng)。
在語言(yan)生(sheng)成(cheng)評測中(zhong),源1.0僅(jin)用時70秒(miao),就(jiu)完成(cheng)近800條摘(zhai)要(yao)內容(rong)的生(sheng)成(cheng),登頂該項(xiang)榜單。源大模(mo)型強大的文(wen)本生(sheng)成(cheng)能力可提升智能問(wen)答(da)與(yu)對話(hua)、新(xin)聞摘(zhai)要(yao)、報(bao)告(gao)生(sheng)成(cheng)等(deng)場(chang)景(jing)中(zhong)AI智能化水平,如從(cong)長篇幅的新(xin)聞資訊等(deng)文(wen)本中(zhong)提取出簡明扼要(yao)的文(wen)字描述,便(bian)于及時、高效的獲取有價值的信息及智能文(wen)案(an)、協助寫作等(deng)場(chang)景(jing)。
在多(duo)語(yu)言機器(qi)翻譯(yi)(yi)評測中,基于源1.0大模型(xing)(xing)蒸餾出(chu)來的翻譯(yi)(yi)模型(xing)(xing)在完成近(jin)4000千對中英(ying)文(wen)(wen)互譯(yi)(yi)后,登頂榜首,領(ling)先(xian)第二名15%。翻譯(yi)(yi)模型(xing)(xing)在基于源1.0大模型(xing)(xing)閱讀的海量(liang)高(gao)質(zhi)量(liang)數(shu)據集(ji)基礎上,采用(yong)(yong)維基百科、書籍、聯合國文(wen)(wen)件(jian)及(ji)字幕組等(deng)近(jin)80G高(gao)質(zhi)量(liang)數(shu)據集(ji)進行強化訓(xun)練,因此翻譯(yi)(yi)不僅專業準確(que),同時(shi)更符合中文(wen)(wen)表述。未來可廣泛(fan)應用(yong)(yong)于新(xin)聞(wen)、哲學、小說等(deng)日常(chang)的語(yu)言翻譯(yi)(yi)場景(jing)中。
在對(dui)話(hua)交互(hu)評(ping)測中,基于(yu)源(yuan)1.0大(da)模型蒸餾出(chu)來的對(dui)話(hua)模型回答(da)了電影、音樂、旅行3個領域共近萬個主題對(dui)話(hua),成(cheng)績(ji)位居榜首,領先第二(er)名成(cheng)績(ji)30%,展現(xian)了極強的智能對(dui)話(hua)能力(li)。在繼承源(yuan)1.0大(da)模型能力(li)的基礎上(shang),對(dui)話(hua)模型采用了2660萬條醫療、法律、保險等不(bu)同(tong)(tong)行業,歷史、電影、娛樂等不(bu)同(tong)(tong)場景的對(dui)話(hua)語料數據(ju)進行強化訓練,在知識問答(da)、高頻閑(xian)聊等開放(fang)式任務上(shang)表(biao)現(xian)突(tu)出(chu),此前已獲得業界權威測評(ping)WebQA開放(fang)問答(da)數據(ju)集榜單冠軍。
當(dang)前(qian),智能(neng)對(dui)(dui)話(hua)普(pu)遍存在內容(rong)乏味、主(zhu)題(ti)不(bu)連(lian)貫等問題(ti),往(wang)往(wang)幾輪對(dui)(dui)話(hua)后(hou),回答(da)便空洞重復,大(da)(da)大(da)(da)降(jiang)低(di)用戶(hu)體驗(yan)。知(zhi)(zhi)識驅(qu)動(dong)(dong)的對(dui)(dui)話(hua)模(mo)型直接連(lian)接到廣泛的知(zhi)(zhi)識庫,大(da)(da)大(da)(da)增加(jia)對(dui)(dui)話(hua)內容(rong)的豐富度,在一(yi)(yi)定(ding)知(zhi)(zhi)識背景(jing)下也不(bu)會偏題(ti),更趨向于人類之間(jian)的交談。不(bu)久前(qian),源開(kai)發(fa)者社(she)區(qu)的一(yi)(yi)位開(kai)發(fa)者基于源的對(dui)(dui)話(hua)模(mo)型創建了一(yi)(yi)位能(neng)與(yu)人類玩劇本殺的AI虛擬(ni)玩家(jia),一(yi)(yi)位人類玩家(jia)與(yu)AI虛擬(ni)玩家(jia)聊天到深夜凌晨仍興趣盎(ang)然。以知(zhi)(zhi)識驅(qu)動(dong)(dong)的對(dui)(dui)話(hua)模(mo)型,可(ke)廣泛應(ying)用于各類虛擬(ni)人、智能(neng)助手、智能(neng)客服等場景(jing),并極大(da)(da)提升(sheng)對(dui)(dui)話(hua)的智能(neng)水平和用戶(hu)體驗(yan)。
源1.0在數學推理鋒芒初露
當(dang)前業界各類大模型在自然(ran)語言處(chu)理(li)(li)領(ling)域(yu)展示(shi)出(chu)了強大的(de)能(neng)(neng)力,但在數學(xue)(xue)領(ling)域(yu)卻還存在盲(mang)區。數學(xue)(xue)對邏輯(ji)和推(tui)理(li)(li)能(neng)(neng)力有極強的(de)要(yao)求(qiu),Open AI開發(fa)出(chu)多種方(fang)法訓練GPT-3的(de)數學(xue)(xue)推(tui)理(li)(li)能(neng)(neng)力,但在挑戰小學(xue)(xue)數學(xue)(xue)應(ying)用(yong)題時,GPT-3也尚(shang)未及格,數學(xue)(xue)推(tui)理(li)(li)能(neng)(neng)力甚至低于9-12歲兒童。
為更(geng)好評測大模型邏輯推理能(neng)(neng)(neng)力(li)(li),CUGE專門設立了數(shu)學推理能(neng)(neng)(neng)力(li)(li)榜(bang)單,主要(yao)考察模型數(shu)值計算能(neng)(neng)(neng)力(li)(li),即(ji)考察對應(ying)用(yong)(yong)情(qing)景和任務的理解抽象能(neng)(neng)(neng)力(li)(li)以及數(shu)值計算能(neng)(neng)(neng)力(li)(li),類似于小(xiao)學數(shu)學應(ying)用(yong)(yong)題。數(shu)學推理能(neng)(neng)(neng)力(li)(li)榜(bang)單數(shu)據(ju)庫內(nei)的數(shu)學題來(lai)自在線教育(yu)網站提供的小(xiao)學數(shu)學應(ying)用(yong)(yong)題。
在CUGE數學(xue)推(tui)理評(ping)測中,源1.0大模型完成1000道小學(xue)數學(xue)應用題,以(yi)76.9的高分大幅領(ling)先高居榜(bang)首。
為應(ying)對大(da)模(mo)型在數(shu)學(xue)(xue)(xue)(xue)推理方面的(de)(de)挑戰(zhan),浪潮(chao)為源1.0開(kai)發了(le)一(yi)(yi)套相(xiang)(xiang)(xiang)(xiang)似啟發式數(shu)據(ju)增強的(de)(de)方案,給(gei)每一(yi)(yi)個(ge)要求解(jie)的(de)(de)數(shu)學(xue)(xue)(xue)(xue)問題(ti)從(cong)數(shu)據(ju)庫中(zhong)檢索并匹配一(yi)(yi)個(ge)相(xiang)(xiang)(xiang)(xiang)似的(de)(de)題(ti)目并與原題(ti)目進行拼接,通(tong)(tong)過(guo)(guo)類(lei)比(bi)學(xue)(xue)(xue)(xue)習(xi)(xi),啟發大(da)模(mo)型能夠根(gen)據(ju)兩道(dao)相(xiang)(xiang)(xiang)(xiang)似問題(ti)更好地(di)學(xue)(xue)(xue)(xue)習(xi)(xi)如何給(gei)出解(jie)題(ti)表達式,進而學(xue)(xue)(xue)(xue)會每一(yi)(yi)類(lei)題(ti)目的(de)(de)解(jie)法,類(lei)似于人類(lei)在學(xue)(xue)(xue)(xue)習(xi)(xi)過(guo)(guo)程(cheng)(cheng)中(zhong)會通(tong)(tong)過(guo)(guo)連續學(xue)(xue)(xue)(xue)習(xi)(xi)同(tong)(tong)一(yi)(yi)類(lei)型的(de)(de)題(ti)目來(lai)提高對這(zhe)一(yi)(yi)類(lei)型題(ti)目的(de)(de)理解(jie)能力;同(tong)(tong)時,浪潮(chao)在源1.0改進了(le)算法掩碼策略,使得(de)模(mo)型在學(xue)(xue)(xue)(xue)習(xi)(xi)過(guo)(guo)程(cheng)(cheng)中(zhong)只關注于連續的(de)(de)相(xiang)(xiang)(xiang)(xiang)似的(de)(de)題(ti)目,不受同(tong)(tong)一(yi)(yi)個(ge)輸(shu)入序列中(zhong)不相(xiang)(xiang)(xiang)(xiang)關題(ti)目的(de)(de)影響,這(zhe)樣模(mo)型可(ke)以(yi)更專注于學(xue)(xue)(xue)(xue)習(xi)(xi)同(tong)(tong)一(yi)(yi)類(lei)型的(de)(de)題(ti)目,極大(da)地(di)提升了(le)解(jie)題(ti)準確(que)度,全方面培養(yang)一(yi)(yi)個(ge)數(shu)學(xue)(xue)(xue)(xue)學(xue)(xue)(xue)(xue)霸。
源1.0開源開放計劃收效顯著
目前,浪潮(chao)“源(yuan)(yuan)1.0”已經將模(mo)型(xing)API、高質量數據(ju)集、模(mo)型(xing)訓練代(dai)碼、推理代(dai)碼和(he)應用(yong)代(dai)碼等等工具和(he)能(neng)力(li)開源(yuan)(yuan)開放,超過300家(jia)行(xing)業(ye)用(yong)戶(hu)和(he)開發(fa)者,通(tong)過“源(yuan)(yuan)1.0”提供的(de)(de)數據(ju)和(he)API顯著提升了金(jin)融、互(hu)聯網(wang)、醫(yi)療和(he)自動駕駛(shi)等行(xing)業(ye)應用(yong)的(de)(de)精度。浪潮(chao)源(yuan)(yuan)1.0將持續助力(li)行(xing)業(ye)用(yong)戶(hu)和(he)開發(fa)者,攜手推動技(ji)術創新、場景(jing)融合(he)、應用(yong)開發(fa),共同(tong)促進大模(mo)型(xing)的(de)(de)健康發(fa)展與(yu)產(chan)業(ye)落(luo)地,加(jia)速AI產(chan)業(ye)化(hua)和(he)產(chan)業(ye)AI化(hua)發(fa)展。