OpenAl采用智譜標準評測GPT-4.1系列大模型

4月15日消息,OpenAI發(fā)布的了最新GPT-4.1系列大模型,其中在評測函數(shù)調(diào)用能力時采用了ComplexFuncBench。

ComplexFuncBench是由智譜團隊提出的專用于評估大模型復雜函數(shù)調(diào)用能力的測試基準。

據(jù)悉,ComplexFuncBench主要評測大模型在128K的長上下文下進行多步帶約束的函數(shù)調(diào)用的能力。相比于現(xiàn)有函數(shù)調(diào)用測試基準,ComplexFuncBench要求大模型對真實場景下的用戶需求進行細粒度理解,并在此基礎(chǔ)上進行多步帶推理的函數(shù)調(diào)用,這對模型的函數(shù)調(diào)用能力提出了更高的挑戰(zhàn)。(果青)

2025-04-15
OpenAl采用智譜標準評測GPT-4.1系列大模型
4月15日消息,OpenAI發(fā)布的了最新GPT-4.1系列大模型,其中在評測函數(shù)調(diào)用能力時采用了ComplexFuncBench。

長按掃碼 閱讀全文