夕小瑤科技說 分享
Lucy,是距今320萬(wàn)年最早的人類祖先,也是被輸入某種“物質(zhì)”后大腦開發(fā)到100%的超智能人類,能感知宇宙萬(wàn)物,擁有人類所有知識(shí)。如果大模型是Lucy,那么LucyEval即是助力其更智能的奇妙”物質(zhì)“。
隨著大語(yǔ)言模型不斷調(diào)優(yōu),大模型擁有了更優(yōu)越的理解人類話語(yǔ)、指令并且生成類似人類語(yǔ)言文本的能力。機(jī)器和人類終歸不同,如何最快速地判斷機(jī)器是否能正確理解人類的知識(shí)和語(yǔ)言,成為我們共同關(guān)注的問題。
由此,甲骨易AI研究院推出了中文大語(yǔ)言模型成熟度評(píng)測(cè)——LucyEval,能夠通過對(duì)模型各方面能力的客觀測(cè)試,找到模型的不足,幫助設(shè)計(jì)者和工程師更加精準(zhǔn)地調(diào)整、訓(xùn)練模型,助力大模型不斷邁向更智能的未來。
Lucy的每一個(gè)字母背后都代表了不同的意義,包含著甲骨易AI研究院設(shè)計(jì)LucyEval時(shí)所考量的維度和堅(jiān)持的理念。
L - Linguistic Fundamentals: 基礎(chǔ)理解能力
U - Utilization of Knowledge: 知識(shí)運(yùn)用能力
C - Cognitive Reasoning: 推理能力
Y - Yield of Specialized Outputs: 特殊生成能力
"Lucy" 包含以下含義:
Linguistic Fundamentals (基礎(chǔ)理解能力) :描述模型對(duì)基礎(chǔ)語(yǔ)法、詞匯和句子結(jié)構(gòu)的理解程度
Utilization of Knowledge (知識(shí)運(yùn)用能力):衡量模型在回答問題或生成文本時(shí)如何運(yùn)用其內(nèi)嵌的知識(shí)。
Cognitive Reasoning (推理能力):評(píng)價(jià)模型是否能從給定的信息中進(jìn)行邏輯推斷或解決復(fù)雜問題。
Yield of Specialized Outputs (特殊生成能力):測(cè)試模型在生成特定類型或風(fēng)格的文本(例如詩(shī)歌、代碼或?qū)I(yè)文章)時(shí)的效能。
目前,LucyEval已發(fā)布如下兩項(xiàng)測(cè)試集。
大規(guī)模多任務(wù)中文理解能力測(cè)試 Massive Multitask Chinese Understanding
2023年4月25日,針對(duì)中文大模型理解能力測(cè)試缺失且推出高質(zhì)量中文評(píng)測(cè)數(shù)據(jù)集迫在眉睫這一現(xiàn)狀,甲骨易AI研究院率先發(fā)布(首發(fā))了一套大規(guī)模多任務(wù)中文大模型理解能力測(cè)試。
測(cè)試所包含的題目來自醫(yī)療、法律、心理學(xué)和教育四個(gè)科目的11900個(gè)問題,包含單項(xiàng)選擇和多項(xiàng)選擇題,目的旨在使測(cè)試過程中模型更接近人類考試的方式,覆蓋學(xué)科面廣,專業(yè)知識(shí)難度高,適合用來評(píng)估大模型的綜合理解能力。
論文鏈接:
https://arxiv.org/abs/2304.12986
中文大模型多學(xué)科生成能力自動(dòng)化評(píng)測(cè)基準(zhǔn) Chinese Generation Evaluation
目前領(lǐng)域內(nèi)的評(píng)測(cè)大多都只針對(duì)模型的中文理解能力,通過選擇題由模型直接生成答案,或者提取模型對(duì)各個(gè)答案選項(xiàng)的輸出概率。從評(píng)測(cè)大模型的生成能力的角度,這些評(píng)測(cè)基準(zhǔn)就存在很大的局限性。
在率先發(fā)布國(guó)內(nèi)首個(gè)中文大模型理解能力測(cè)試后,甲骨易AI研究院于8月9日正式發(fā)布一套自動(dòng)測(cè)評(píng)中文大模型多學(xué)科生成能力的評(píng)測(cè)基準(zhǔn)。
基準(zhǔn)包含11000道題目,涵蓋科技工程、人文與社會(huì)科學(xué)、數(shù)學(xué)計(jì)算、醫(yī)師資格考試、司法考試、注冊(cè)會(huì)計(jì)師考試等科目下的55個(gè)子科目。題型分為名詞解釋、簡(jiǎn)答題和計(jì)算題三種類型。同時(shí),甲骨易AI研究院還設(shè)計(jì)了一套復(fù)合打分方式Gscore,使評(píng)分過程更加合理、科學(xué)。
甲骨易AI研究院使用本評(píng)測(cè)基準(zhǔn)對(duì)以下模型進(jìn)行了zero-shot測(cè)試,包括GPT-4、ChatGLM-Std、訊飛星火Spark Desk、文心一言ERNIE Bot等。
本次受測(cè)中文大語(yǔ)言模型
從所有模型在六大類科目的平均分來看,GPT-4取得最高分41.12,比最低分32.28高出8.84分。
本次受測(cè)中文大語(yǔ)言模型平均得分
受測(cè)模型在其他學(xué)科的表現(xiàn)詳見評(píng)測(cè)地址:
http://lucyeval.besteasy.com/
未來,甲骨易AI研究院將矢志不移地為提升中文大語(yǔ)言模型能力為目標(biāo),持續(xù)研究適應(yīng)其發(fā)展的測(cè)試集,期待與同樣關(guān)注大語(yǔ)言模型發(fā)展的業(yè)界同仁攜手共建。
論文鏈接:
https://arxiv.org/abs/2308.04823
更多AI相關(guān)資訊,請(qǐng)關(guān)注微信公眾號(hào):甲骨易
- WAIE全數(shù)會(huì)智能工業(yè)展及大會(huì)今日盛大開幕,人氣爆滿!首日高光回顧+明日重磅劇透,速覽精彩!
- 新世代 心觸點(diǎn) | 2025 ChinaJoy IP大會(huì)圓滿召開
- 聚新質(zhì)動(dòng)能 引全球共振 | CDEC高峰論壇圓滿召開
- 中國(guó)音數(shù)協(xié)常務(wù)副理事長(zhǎng)兼秘書長(zhǎng)敖然發(fā)布《游戲經(jīng)濟(jì):澎湃動(dòng)力激蕩漣漪效應(yīng)》
- 孫壽山理事長(zhǎng):穩(wěn)中求進(jìn) 應(yīng)變求新 不斷夯實(shí)產(chǎn)業(yè)發(fā)展基石
- 《2025年1-6月中國(guó)游戲產(chǎn)業(yè)報(bào)告》正式發(fā)布
- “AI變革生產(chǎn)力,讓創(chuàng)意更有價(jià)值”——2025 AI+娛樂科技大會(huì)圓滿召開
- 2025發(fā)電人工智能大會(huì)暨深度調(diào)峰技術(shù)交流會(huì)將于10月盛大啟幕!
- 2025PCE個(gè)護(hù)生活電器展將于11月5日正式開幕,提前領(lǐng)票可享多重福利!
- 芯創(chuàng)雙擎,智凈革新——第八屆電動(dòng)工具與清潔電器雙論壇即將亮相蘇州
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。