浪潮“源1.0”大模型登頂中文語言能力評測基準CUGE榜首

本文章由注冊用戶熱點芝士上傳提供 2023-11-12 ☆ 評論 0

摘要：浪潮“源1.0”大模型登頂中文語言能力理解和生成評測基準CUGE總榜榜首，獲得語言理解（篇章級）、語言生成、對話交互、多語言、數學推理等5項評測最佳成績。這表現出浪潮在中文機器語言能力的強大實力。未來，浪潮源1.0將持續助力行業用戶和開發者，攜手推動技術創新、場景融合、應用開發，共同促進大模型的健康發展與產業落地，加速AI產業化和產業AI化發展。

2022年6月，浪(lang)潮(chao)“源(yuan)1.0”大模型登頂中(zhong)(zhong)文語(yu)言能力理解(jie)和(he)生(sheng)成評(ping)測基準(zhun)CUGE總(zong)榜榜首，并獲得(de)語(yu)言理解(jie)（篇章級）、語(yu)言生(sheng)成、對話交互、多語(yu)言、數學(xue)推(tui)理等5項(xiang)評(ping)測最(zui)佳成績(ji)。這是繼源(yuan)1.0攬(lan)獲權威中(zhong)(zhong)文語(yu)言評(ping)測基準(zhun)CLUE榜單的零樣(yang)本學(xue)習和(he)小(xiao)樣(yang)本學(xue)習兩類(lei)總(zong)榜冠軍后，再次在評(ping)測中(zhong)(zhong)展現強大實力。

CUGE(Chinese Language Understanding and Generation Evaluation)智(zhi)源(yuan)指數是由(you)清華大(da)學(xue)、北(bei)京(jing)大(da)學(xue)、北(bei)京(jing)智(zhi)源(yuan)研究(jiu)院等高(gao)校(xiao)機構(gou)共同建立的中文(wen)機器語言能力評測基準，該基準針對當前(qian)自然(ran)語言處理(li)和(he)人工智(zhi)能發(fa)展(zhan)新范式，面(mian)向具有(you)“通用語言能力”的預訓練模型，全(quan)面(mian)系(xi)統、多(duo)層次、多(duo)維度地評測大(da)模型能力。

源1.0領跑多類綜合語言場景

在語言理(li)解(jie)(jie)(篇(pian)章級)評(ping)測中(zhong)，源(yuan)1.0僅用(yong)(yong)時11分鐘，便完成數千篇(pian)閱讀理(li)解(jie)(jie)回答4000多個問題(ti)，以86.9高分的(de)(de)成績位居(ju)榜(bang)首，展現(xian)出頂(ding)尖(jian)的(de)(de)語言理(li)解(jie)(jie)能力。基于(yu)源(yuan)1.0大模型強(qiang)大的(de)(de)閱讀理(li)解(jie)(jie)能力及高速處(chu)理(li)大量樣本的(de)(de)特(te)點，未來將加速勞動密集型文(wen)本處(chu)理(li)等行(xing)業變革(ge)，如應用(yong)(yong)于(yu)智能客服根(gen)據用(yong)(yong)戶提供的(de)(de)信(xin)息在產(chan)品文(wen)檔中(zhong)快速找到解(jie)(jie)決方案(an)及智能司法、智能招(zhao)聘系統等。

在語言生(sheng)成(cheng)(cheng)評測(ce)中(zhong)，源1.0僅用時70秒，就完成(cheng)(cheng)近800條摘(zhai)要內容的生(sheng)成(cheng)(cheng)，登頂該項榜單。源大模型強大的文(wen)本生(sheng)成(cheng)(cheng)能(neng)(neng)力可提升智能(neng)(neng)問答與(yu)對話(hua)、新聞(wen)摘(zhai)要、報告生(sheng)成(cheng)(cheng)等(deng)場景中(zhong)AI智能(neng)(neng)化水(shui)平(ping)，如從長篇(pian)幅(fu)的新聞(wen)資(zi)訊等(deng)文(wen)本中(zhong)提取出簡明扼要的文(wen)字描述(shu)，便于及時、高效(xiao)的獲取有價(jia)值(zhi)的信息及智能(neng)(neng)文(wen)案、協助寫作等(deng)場景。

在多語言機器翻(fan)(fan)譯(yi)(yi)評測中(zhong)(zhong)(zhong)，基(ji)于(yu)源1.0大(da)模(mo)型蒸(zheng)餾出來的(de)翻(fan)(fan)譯(yi)(yi)模(mo)型在完成(cheng)近(jin)4000千對中(zhong)(zhong)(zhong)英文(wen)互譯(yi)(yi)后，登頂榜首，領先(xian)第二名15%。翻(fan)(fan)譯(yi)(yi)模(mo)型在基(ji)于(yu)源1.0大(da)模(mo)型閱讀(du)的(de)海量(liang)高(gao)(gao)質量(liang)數(shu)據(ju)集基(ji)礎上，采用(yong)維(wei)基(ji)百科(ke)、書籍、聯合(he)(he)國(guo)文(wen)件(jian)及字幕組等近(jin)80G高(gao)(gao)質量(liang)數(shu)據(ju)集進行強化訓(xun)練，因此翻(fan)(fan)譯(yi)(yi)不(bu)僅專業準(zhun)確，同時更符合(he)(he)中(zhong)(zhong)(zhong)文(wen)表述。未(wei)來可廣泛應用(yong)于(yu)新聞、哲學、小說等日常的(de)語言翻(fan)(fan)譯(yi)(yi)場(chang)景(jing)中(zhong)(zhong)(zhong)。

在對話(hua)交互評(ping)測中，基于(yu)源(yuan)1.0大(da)模(mo)型(xing)(xing)蒸餾(liu)出來的(de)對話(hua)模(mo)型(xing)(xing)回(hui)答了電(dian)影(ying)、音樂(le)(le)、旅行3個(ge)領域共近萬個(ge)主題(ti)對話(hua)，成(cheng)績位(wei)居榜首，領先第二(er)名成(cheng)績30%，展(zhan)現了極強(qiang)的(de)智能對話(hua)能力。在繼承源(yuan)1.0大(da)模(mo)型(xing)(xing)能力的(de)基礎上，對話(hua)模(mo)型(xing)(xing)采用了2660萬條醫療、法律、保險等不同(tong)行業，歷史(shi)、電(dian)影(ying)、娛樂(le)(le)等不同(tong)場景(jing)的(de)對話(hua)語料數據進行強(qiang)化訓練(lian)，在知識問答、高頻閑聊(liao)等開放(fang)式任務上表現突出，此(ci)前(qian)已獲得(de)業界(jie)權威測評(ping)WebQA開放(fang)問答數據集榜單冠(guan)軍。

當前(qian)，智(zhi)能(neng)對(dui)(dui)話(hua)普遍存在內(nei)容(rong)乏(fa)味、主(zhu)題(ti)不(bu)連貫等問(wen)題(ti)，往往幾輪對(dui)(dui)話(hua)后，回答便(bian)空洞重復，大(da)大(da)降低用(yong)戶體驗。知(zhi)識(shi)驅動的(de)對(dui)(dui)話(hua)模型直(zhi)接連接到廣泛的(de)知(zhi)識(shi)庫，大(da)大(da)增加對(dui)(dui)話(hua)內(nei)容(rong)的(de)豐富度，在一定知(zhi)識(shi)背景(jing)下也不(bu)會偏題(ti)，更趨(qu)向于(yu)人類(lei)之(zhi)間(jian)的(de)交談。不(bu)久前(qian)，源(yuan)開(kai)發(fa)者(zhe)社區(qu)的(de)一位(wei)(wei)(wei)開(kai)發(fa)者(zhe)基于(yu)源(yuan)的(de)對(dui)(dui)話(hua)模型創建了一位(wei)(wei)(wei)能(neng)與人類(lei)玩(wan)(wan)劇本殺的(de)AI虛(xu)(xu)擬玩(wan)(wan)家，一位(wei)(wei)(wei)人類(lei)玩(wan)(wan)家與AI虛(xu)(xu)擬玩(wan)(wan)家聊天(tian)到深夜凌晨仍興(xing)趣(qu)盎然。以知(zhi)識(shi)驅動的(de)對(dui)(dui)話(hua)模型，可廣泛應用(yong)于(yu)各類(lei)虛(xu)(xu)擬人、智(zhi)能(neng)助(zhu)手(shou)、智(zhi)能(neng)客服等場景(jing)，并極大(da)提升(sheng)對(dui)(dui)話(hua)的(de)智(zhi)能(neng)水平和用(yong)戶體驗。

源1.0在數學推理鋒芒初露

當前業(ye)界(jie)各類大(da)模(mo)型在(zai)(zai)自然語言處理領域展示出了強(qiang)大(da)的能(neng)力(li)，但在(zai)(zai)數(shu)學領域卻(que)還存在(zai)(zai)盲區。數(shu)學對邏輯和推理能(neng)力(li)有(you)極強(qiang)的要求，Open AI開(kai)發出多種方法訓練(lian)GPT-3的數(shu)學推理能(neng)力(li)，但在(zai)(zai)挑戰小(xiao)學數(shu)學應用題時，GPT-3也尚未及格，數(shu)學推理能(neng)力(li)甚至(zhi)低于9-12歲(sui)兒童。

為更(geng)好評測(ce)大(da)模型(xing)邏輯推理(li)(li)能(neng)(neng)(neng)力(li)(li)，CUGE專門設立(li)了數(shu)學(xue)(xue)推理(li)(li)能(neng)(neng)(neng)力(li)(li)榜(bang)單(dan)，主要(yao)考察模型(xing)數(shu)值(zhi)計(ji)算(suan)能(neng)(neng)(neng)力(li)(li)，即考察對(dui)應用情景和任務的(de)(de)理(li)(li)解抽(chou)象能(neng)(neng)(neng)力(li)(li)以及數(shu)值(zhi)計(ji)算(suan)能(neng)(neng)(neng)力(li)(li)，類似(si)于小學(xue)(xue)數(shu)學(xue)(xue)應用題(ti)。數(shu)學(xue)(xue)推理(li)(li)能(neng)(neng)(neng)力(li)(li)榜(bang)單(dan)數(shu)據庫內的(de)(de)數(shu)學(xue)(xue)題(ti)來(lai)自在線教育(yu)網站提供的(de)(de)小學(xue)(xue)數(shu)學(xue)(xue)應用題(ti)。

在CUGE數學推理評(ping)測中，源1.0大(da)模(mo)型完(wan)成1000道小學數學應用題，以76.9的(de)高(gao)分大(da)幅領先(xian)高(gao)居榜(bang)首。

為應對大(da)模(mo)型(xing)(xing)(xing)在(zai)(zai)數學(xue)(xue)推理(li)方(fang)面(mian)的挑戰，浪潮(chao)為源(yuan)1.0開發(fa)了(le)一(yi)套相(xiang)(xiang)似(si)(si)(si)啟發(fa)式數據(ju)增強的方(fang)案，給每一(yi)個(ge)(ge)要求解(jie)的數學(xue)(xue)問題(ti)(ti)(ti)從數據(ju)庫(ku)中檢索并匹配(pei)一(yi)個(ge)(ge)相(xiang)(xiang)似(si)(si)(si)的題(ti)(ti)(ti)目(mu)(mu)(mu)并與原(yuan)題(ti)(ti)(ti)目(mu)(mu)(mu)進(jin)行拼(pin)接(jie)，通(tong)過類(lei)比學(xue)(xue)習(xi)，啟發(fa)大(da)模(mo)型(xing)(xing)(xing)能(neng)(neng)夠根據(ju)兩道相(xiang)(xiang)似(si)(si)(si)問題(ti)(ti)(ti)更(geng)好(hao)地學(xue)(xue)習(xi)如何給出解(jie)題(ti)(ti)(ti)表(biao)達式，進(jin)而學(xue)(xue)會(hui)每一(yi)類(lei)題(ti)(ti)(ti)目(mu)(mu)(mu)的解(jie)法(fa)，類(lei)似(si)(si)(si)于人類(lei)在(zai)(zai)學(xue)(xue)習(xi)過程(cheng)中會(hui)通(tong)過連續學(xue)(xue)習(xi)同一(yi)類(lei)型(xing)(xing)(xing)的題(ti)(ti)(ti)目(mu)(mu)(mu)來提高(gao)對這一(yi)類(lei)型(xing)(xing)(xing)題(ti)(ti)(ti)目(mu)(mu)(mu)的理(li)解(jie)能(neng)(neng)力；同時(shi)，浪潮(chao)在(zai)(zai)源(yuan)1.0改進(jin)了(le)算法(fa)掩碼策(ce)略，使得模(mo)型(xing)(xing)(xing)在(zai)(zai)學(xue)(xue)習(xi)過程(cheng)中只(zhi)關(guan)注于連續的相(xiang)(xiang)似(si)(si)(si)的題(ti)(ti)(ti)目(mu)(mu)(mu)，不(bu)受同一(yi)個(ge)(ge)輸入序列中不(bu)相(xiang)(xiang)關(guan)題(ti)(ti)(ti)目(mu)(mu)(mu)的影(ying)響，這樣(yang)模(mo)型(xing)(xing)(xing)可以(yi)更(geng)專注于學(xue)(xue)習(xi)同一(yi)類(lei)型(xing)(xing)(xing)的題(ti)(ti)(ti)目(mu)(mu)(mu)，極大(da)地提升(sheng)了(le)解(jie)題(ti)(ti)(ti)準確度，全方(fang)面(mian)培養一(yi)個(ge)(ge)數學(xue)(xue)學(xue)(xue)霸。

源1.0開源開放計劃收效顯著

目(mu)前，浪(lang)潮(chao)“源(yuan)(yuan)1.0”已經將模(mo)(mo)型(xing)API、高質量數據集(ji)、模(mo)(mo)型(xing)訓練代(dai)(dai)碼(ma)(ma)、推理代(dai)(dai)碼(ma)(ma)和(he)應(ying)用代(dai)(dai)碼(ma)(ma)等(deng)(deng)等(deng)(deng)工具(ju)和(he)能力(li)開(kai)源(yuan)(yuan)開(kai)放(fang)，超過300家行(xing)(xing)業用戶和(he)開(kai)發(fa)(fa)者(zhe)(zhe)，通過“源(yuan)(yuan)1.0”提供的數據和(he)API顯著提升了金融、互聯網、醫(yi)療和(he)自動(dong)駕駛等(deng)(deng)行(xing)(xing)業應(ying)用的精度。浪(lang)潮(chao)源(yuan)(yuan)1.0將持(chi)續助力(li)行(xing)(xing)業用戶和(he)開(kai)發(fa)(fa)者(zhe)(zhe)，攜手推動(dong)技術創新(xin)、場(chang)景(jing)融合、應(ying)用開(kai)發(fa)(fa)，共同促(cu)進大模(mo)(mo)型(xing)的健康(kang)發(fa)(fa)展(zhan)(zhan)與產業落地，加速AI產業化和(he)產業AI化發(fa)(fa)展(zhan)(zhan)。

標簽： 浪潮inspur 服務器機頂盒服務器機柜工作站

網站提醒和聲明

本站(zhan)為注冊(ce)用(yong)戶(hu)提(ti)供(gong)(gong)信(xin)息(xi)存儲空間(jian)服務，非“MAIGOO編輯上傳提(ti)供(gong)(gong)”的文章/文字均(jun)是注冊(ce)用(yong)戶(hu)自主發布(bu)上傳，不代表本站(zhan)觀(guan)點，版權歸原作(zuo)者所(suo)有，如有侵權、虛假信(xin)息(xi)、錯誤(wu)信(xin)息(xi)或(huo)任何問題，請及時(shi)聯系(xi)我們，我們將(jiang)在第一時(shi)間(jian)刪(shan)除或(huo)更正。申請刪除>> 糾錯>> 投訴侵權>> 網頁(ye)上(shang)相關信(xin)(xin)息(xi)的(de)知識(shi)產權(quan)歸網站方所有(包括但不限于文字、圖片、圖表(biao)、著作權(quan)、商標(biao)權(quan)、為用(yong)戶提(ti)供的(de)商業信(xin)(xin)息(xi)等)，非經許可不得抄襲或(huo)使用(yong)。

提交說明：快速提交發布>> 提交資訊幫助>> 注冊登錄>>