谷歌發(fā)布開(kāi)源 LMEval:打破AI模型評(píng)測(cè)壁壘,一鍵評(píng)估,降低成本省時(shí)!

谷歌發(fā)布開(kāi)源 LMEval:打破AI模型評(píng)測(cè)壁壘,一鍵評(píng)估,降低成本省時(shí)!

谷歌近日發(fā)布的開(kāi)源框架LMEval,無(wú)疑為人工智能(AI)模型評(píng)測(cè)領(lǐng)域開(kāi)啟了一扇新的大門。這款由科技巨頭傾力打造的開(kāi)源工具,旨在為大語(yǔ)言模型和多模態(tài)模型提供標(biāo)準(zhǔn)化的評(píng)測(cè)工具,直擊當(dāng)前評(píng)測(cè)難題,一鍵評(píng)估,降低成本省時(shí)。

首先,我們要理解LMEval的背景和意義。在人工智能領(lǐng)域,評(píng)測(cè)新型AI模型一直是個(gè)難題。不同供應(yīng)商使用各自的API、數(shù)據(jù)格式和基準(zhǔn)設(shè)置,導(dǎo)致跨模型比較耗時(shí)且復(fù)雜。而LMEval的推出,正是為了解決這一問(wèn)題,提供一個(gè)統(tǒng)一的基準(zhǔn)設(shè)置,讓研究人員和開(kāi)發(fā)者能夠展開(kāi)標(biāo)準(zhǔn)化的評(píng)測(cè)流程,大幅簡(jiǎn)化了評(píng)測(cè)工作,節(jié)省了時(shí)間和資源。

其次,LMEval的另一個(gè)亮點(diǎn)在于其抹平了不同平臺(tái)之間的接口差異。通過(guò)LiteLLM框架,谷歌成功地將Google、OpenAI、Anthropic、Ollama和Hugging Face等平臺(tái)之間的接口差異降至最小,確保測(cè)試能夠跨平臺(tái)無(wú)縫運(yùn)行。這一創(chuàng)新性的解決方案,無(wú)疑將加速AI領(lǐng)域的創(chuàng)新步伐。

再者,LMEval的評(píng)估類型支持也相當(dāng)豐富。不僅支持文本評(píng)測(cè),還涵蓋圖像和代碼等領(lǐng)域的基準(zhǔn)測(cè)試。新輸入格式可輕松擴(kuò)展,這意味著該框架能夠適應(yīng)未來(lái)可能出現(xiàn)的新領(lǐng)域。此外,LMEval還能識(shí)別模型采用的“規(guī)避策略”,即故意給出模糊回答以避免生成有風(fēng)險(xiǎn)內(nèi)容。這一功能對(duì)于評(píng)估AI模型的潛在風(fēng)險(xiǎn)和安全性具有重要意義。

另外,谷歌還引入了Giskard安全評(píng)分,用以展示模型規(guī)避有害內(nèi)容的表現(xiàn)。百分比越高,代表安全性越強(qiáng)。這一創(chuàng)新性指標(biāo)將有助于提高AI模型在處理有害內(nèi)容時(shí)的表現(xiàn),從而更好地服務(wù)于社會(huì)。測(cè)試結(jié)果存儲(chǔ)在自加密的SQLite數(shù)據(jù)庫(kù)中,確保數(shù)據(jù)本地化且不會(huì)被搜索引擎索引,兼顧了隱私與便捷。

此外,LMEval還具備增量評(píng)估功能。無(wú)需在新增模型或問(wèn)題時(shí)重新運(yùn)行整個(gè)測(cè)試,僅執(zhí)行必要的新增測(cè)試即可。這一特性將大大提高評(píng)測(cè)效率,降低計(jì)算成本和時(shí)間消耗。同時(shí),LMEval還采用多線程引擎并行處理多項(xiàng)計(jì)算,進(jìn)一步提升了評(píng)測(cè)速度。

為了便于用戶使用LMEval,谷歌還開(kāi)發(fā)了LMEvalboard可視化工具。通過(guò)雷達(dá)圖展示模型在不同類別中的表現(xiàn),用戶可深入查看具體任務(wù),精準(zhǔn)定位模型錯(cuò)誤,并直接比較多個(gè)模型在特定問(wèn)題上的差異。這一工具的使用門檻低,圖形化展示一目了然,大大提高了評(píng)測(cè)的便捷性。

綜上所述,谷歌發(fā)布的開(kāi)源框架LMEval無(wú)疑是一款具有開(kāi)創(chuàng)性的評(píng)測(cè)工具。其標(biāo)準(zhǔn)化評(píng)測(cè)流程、抹平平臺(tái)差異、豐富評(píng)估類型、識(shí)別規(guī)避策略、安全評(píng)分功能以及可視化工具等特性,將為AI模型評(píng)測(cè)領(lǐng)域帶來(lái)革命性的變革。一鍵評(píng)估,降低成本省時(shí),LMEval的推出將為研究人員和開(kāi)發(fā)者節(jié)省大量時(shí)間和資源,推動(dòng)人工智能領(lǐng)域的發(fā)展邁上新的臺(tái)階。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2025-05-28
谷歌發(fā)布開(kāi)源 LMEval:打破AI模型評(píng)測(cè)壁壘,一鍵評(píng)估,降低成本省時(shí)!
谷歌發(fā)布開(kāi)源 LMEval:打破AI模型評(píng)測(cè)壁壘,一鍵評(píng)估,降低成本省時(shí)! 谷歌近日發(fā)布的開(kāi)源框架LMEval,無(wú)疑為人工智能(AI)模型評(píng)測(cè)領(lǐng)域...

長(zhǎng)按掃碼 閱讀全文