英偉達(dá)重塑AI模型外部工具能力:DeepSeek-R1引領(lǐng)新RL范式,顛覆業(yè)界期待

重塑AI模型外部工具能力:英偉達(dá)引領(lǐng)新RL范式的探索

隨著科技的發(fā)展,人工智能(AI)模型在各個領(lǐng)域的應(yīng)用越來越廣泛。尤其在語言模型領(lǐng)域,大型語言模型(LLMs)的表現(xiàn)日益出色,成為搜索引擎、計算器、視覺工具和Python解釋器等領(lǐng)域的佼佼者。然而,隨著技術(shù)的進步,我們也面臨新的挑戰(zhàn)。為了進一步提升LLMs的性能,英偉達(dá)聯(lián)合賓夕法尼亞州立大學(xué)、華盛頓大學(xué),組建專業(yè)團隊,探索新的強化學(xué)習(xí)(RL)范式,以重塑AI模型外部工具的能力。

英偉達(dá)的這一創(chuàng)新舉措,無疑將引領(lǐng)業(yè)界期待的新方向。他們借鑒了DeepSeek-R1的成功,開發(fā)了輕量級監(jiān)督機制,專注于工具調(diào)用的結(jié)構(gòu)有效性和功能正確性。這一機制并非依賴顯式標(biāo)注的推理軌跡,而是采用二元獎勵機制,讓模型自主發(fā)展推理策略。

為了實現(xiàn)這一目標(biāo),研究者統(tǒng)一處理了xLAM和ToolACE等數(shù)據(jù)集的子集,并設(shè)計了輕量級提示模板,指導(dǎo)工具生成過程。這個模板使用“think...”標(biāo)簽明確指示中間推理,并用“tool_call”標(biāo)簽封裝工具調(diào)用,這樣有效地避免了過度擬合特定提示模式。

主干模型采用了Qwen2.5-7B/14B,并測試了LLaMA系列變體,以評估其泛化能力。在BFCL基準(zhǔn)測試中,Nemotron-Research-Tool-N1-7B/14B模型表現(xiàn)出色,超越了封閉源模型GPT-4o以及專用微調(diào)模型xLAM-2-70B和ToolACE-8B。與相同數(shù)據(jù)源的SFT基準(zhǔn)相比,該模型的優(yōu)勢明顯,證明了RL方法的有效性。

更值得一提的是,在API-Bank基準(zhǔn)上,Tool-N1-7B/14B的準(zhǔn)確率分別比GPT-4o高出4.12%和5.03%。這一顯著提升進一步驗證了新方法的潛力,表明了從傳統(tǒng)SFT向RL范式的轉(zhuǎn)變。

這些成果不僅體現(xiàn)了英偉達(dá)在AI領(lǐng)域的領(lǐng)先地位,也展示了他們對于AI未來發(fā)展的獨特見解。他們認(rèn)識到現(xiàn)有的研究方法依賴合成數(shù)據(jù)集,無法捕捉明確的推理步驟,導(dǎo)致模型僅模仿表面模式,而非真正理解決策過程。因此,他們選擇了強化學(xué)習(xí)這一更具靈活性和適應(yīng)性的方法。

強化學(xué)習(xí)是一種機器學(xué)習(xí)方法,通過環(huán)境對模型的反饋(獎勵或懲罰),調(diào)整模型的行為以最大化預(yù)期的獎勵。在這種方法中,模型需要自主地探索和優(yōu)化其行為,以獲得更好的性能。DeepSeek-R1的成功正是源于其采用了新型強化學(xué)習(xí)范式,強化了模型推理能力。

此外,英偉達(dá)還積極探索其他策略以提升LLMs的工具使用能力。他們不僅通過數(shù)據(jù)集整理和模型優(yōu)化來整合LLMs與外部工具,還致力于改進推理過程。從傳統(tǒng)的訓(xùn)練時擴展到測試時復(fù)雜策略的指導(dǎo),為LLMs提供了更廣闊的發(fā)展空間。

總的來說,英偉達(dá)通過聯(lián)合研究團隊,積極探索新的強化學(xué)習(xí)范式,已經(jīng)取得了顯著的成果。他們的努力不僅提升了LLMs的性能,也為AI領(lǐng)域的發(fā)展開辟了新的可能性。我們期待看到更多這樣的創(chuàng)新舉措,推動AI技術(shù)的進一步發(fā)展。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2025-05-14
英偉達(dá)重塑AI模型外部工具能力:DeepSeek-R1引領(lǐng)新RL范式,顛覆業(yè)界期待
重塑AI模型外部工具能力:英偉達(dá)引領(lǐng)新RL范式的探索 隨著科技的發(fā)展,人工智能(AI)模型在各個領(lǐng)域的應(yīng)用越來越廣泛。尤其在語言模型領(lǐng)域...

長按掃碼 閱讀全文