隨著人工智能技術的飛速發(fā)展,開源大模型在自然語言處理領域的應用越來越廣泛。近期,Meta發(fā)布的最新開源大模型Llama-4-Maverick在Chatbot Arena LLM排行榜中的排名一路飆升,一度位居第二。然而,近期的一系列事件引發(fā)了開發(fā)者對Meta刷榜作弊的質疑,導致其排名直線下降。
首先,讓我們回顧一下Llama-4-Maverick的基本情況。該模型是Meta推出的最新大模型之一,包含Scout、Maverick和Behemoth三個版本。其中,Llama-4-Maverick在LMArena公布的Chatbot Arena LLM排行榜中排名第二,僅次于Gemini 2.5 Pro。這一表現引起了廣大開發(fā)者的關注和期待。
然而,隨著開發(fā)者實際使用Llama-4-Maverick開源版的效果陸續(xù)曝光,質疑聲也隨之而來。有開發(fā)者發(fā)現,Meta提供給LMArena的Llama-4-Maverick版本與提交給社區(qū)的開源版本不同。這引發(fā)了開發(fā)者對Meta刷榜作弊的質疑,導致其口碑急轉直下。
面對這一質疑,Chatbot Arena官方發(fā)文確認了用戶的擔憂,并考慮更新排行榜。經過調查,他們發(fā)現Meta首次提交給LMArena的Llama-4-Maverick-03-26-Experimental是一個實驗性聊天優(yōu)化版本,當時該版本的排名為第二。修正后的模型為HuggingFace開源版同款Llama-4-Maverick-17B-128E-Instruct,是17B激活參數、128個MoE專家的指令微調模型。目前,該模型在LMArena的排名為32名,遠低于其他模型。
那么,為什么Meta的Llama-4-Maverick表現不佳呢?Meta的一位發(fā)言人在回應TechCrunch的采訪時表示,該模型是“針對對話性進行優(yōu)化”的。這些優(yōu)化在LM Arena上取得了不錯的效果,因為LM Arena的人類評分者會選擇他們更偏好的結果。然而,在基準測試中,LM Arena的可靠性一直備受爭議,因為它并不能完全反映模型在實際應用中的表現。
值得注意的是,Meta已經開始重視這個問題。他們已經發(fā)布了開源版本,并表示將期待開發(fā)者的反饋和定制化建議。這種開放的態(tài)度值得贊賞,因為通過與開發(fā)者緊密合作,Meta可以不斷優(yōu)化模型,提高其在不同場景下的表現。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )