6月15日消息,15日,百川智能公司推出了70 億參數(shù)量的中英文預(yù)訓(xùn)練大模型——baichuan-7B。
baichuan-7B不僅在C-Eval、AGIEval和Gaokao中文權(quán)威評測榜單上,以顯著優(yōu)勢全面超過了ChatGLM-6B等其他大模型,并且在MMLU英文權(quán)威評測榜單上,大幅領(lǐng)先LLaMA-7B。
目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平臺發(fā)布。
為了驗證模型的各項能力,baichuan-7B在C-Eval、AGIEval和Gaokao三個最具影響力的中文評估基準(zhǔn)進(jìn)行了綜合評估,并且均獲得了優(yōu)異成績,它已經(jīng)成為同等參數(shù)規(guī)模下中文表現(xiàn)最優(yōu)秀的原生預(yù)訓(xùn)練模型。
在中文C-EVAL的評測中,baichuan-7B的綜合評分達(dá)到了42.8分,超過了ChatGLM-6B的38.9分,甚至比某些參數(shù)規(guī)模更大的模型還要出色。
C-Eval評測基準(zhǔn)由上海交通大學(xué)、清華大學(xué)以及愛丁堡大學(xué)聯(lián)合創(chuàng)建,是面向中文語言模型的綜合考試評測集,覆蓋了52個來自不同行業(yè)領(lǐng)域的學(xué)科。
在AGIEval的評測里,baichuan-7B綜合評分達(dá)到34.4分,遠(yuǎn)超LLaMa-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他開源模型。
AGIEval評測基準(zhǔn)由微軟研究院發(fā)起,旨在全面評估基礎(chǔ)模型在人類認(rèn)知和問題解決相關(guān)任務(wù)上的能力,包含了中國的高考、司法考試,以及美國的SAT、LSAT、GRE和GMAT等20個公開且嚴(yán)謹(jǐn)?shù)墓俜饺雽W(xué)和職業(yè)資格考試。
在GAOKAO評測中,baichuan-7B的綜合評分達(dá)到了36.2分,顯著領(lǐng)先于同參數(shù)規(guī)模的各種其他預(yù)訓(xùn)練模型。
GAOKAO評測基準(zhǔn)是復(fù)旦大學(xué)研究團(tuán)隊創(chuàng)建的評測框架,以中國高考題目作為數(shù)據(jù)集,用于測試大模型在中文語言理解和邏輯推理能力方面的表現(xiàn)。
baichuan-7B不僅在中文方面表現(xiàn)優(yōu)異,在英文上表現(xiàn)同樣亮眼。在MMLU的評測中baichuan-7B綜合評分高達(dá)42.5分,大幅領(lǐng)先英文開源預(yù)訓(xùn)練模型LLaMA-7B的34.2分以及中文開源模型ChatGLM-6B的36.9分。
MMLU由加州大學(xué)伯克利分校等知名高校共同打造,集合了科學(xué)、工程、數(shù)學(xué)、人文、社會科學(xué)等領(lǐng)域的57個科目,主要目標(biāo)是對模型的英文跨學(xué)科專業(yè)能力進(jìn)行深入測試。其內(nèi)容廣泛,從初級水平一直涵蓋到高級專業(yè)水平。
訓(xùn)練語料對大模型的訓(xùn)練結(jié)果至關(guān)重要。在構(gòu)建預(yù)訓(xùn)練語料庫方面,百川智能以高質(zhì)量中文語料為基礎(chǔ),同時融合了優(yōu)質(zhì)的英文數(shù)據(jù)。
在數(shù)據(jù)質(zhì)量方面,通過質(zhì)量模型對數(shù)據(jù)進(jìn)行打分,對原始數(shù)據(jù)集進(jìn)行篇章級和句子級的精確篩選;在內(nèi)容多樣性方面,利用自研超大規(guī)模局部敏感哈希聚類系統(tǒng)和語義聚類系統(tǒng),對數(shù)據(jù)進(jìn)行了多層次多粒度的聚類,最終構(gòu)建了包含1.2萬億token的兼顧質(zhì)量和多樣性的預(yù)訓(xùn)練數(shù)據(jù)。相較于其他同參數(shù)規(guī)模的開源中文預(yù)訓(xùn)練模型,數(shù)據(jù)量提高了超過50%。
在萬億優(yōu)質(zhì)中英文數(shù)據(jù)的基礎(chǔ)上,為了更好地提升訓(xùn)練效率,baichuan-7B深度整合了模型算子來加快計算流程,并針對任務(wù)負(fù)載和集群配置,自適應(yīng)優(yōu)化了模型并行策略以及重計算策略。
通過高效的訓(xùn)練過程調(diào)度通信,baichuan-7B成功地實現(xiàn)了計算與通信的高效重疊,進(jìn)而達(dá)到了超線性的訓(xùn)練加速,在千卡集群上訓(xùn)練吞吐達(dá)到180+Tflops的業(yè)界領(lǐng)先水平。
同時,已有的開源模型窗口長度在2K以內(nèi),對于一些長文本建模任務(wù),如需要引入外部知識做搜索增強的場景,更長的處理長度有助于模型在訓(xùn)練與推理階段捕獲越多的上下文信息,2K的處理長度存在比較大的制約。
baichuan-7B基于高效的attention算子優(yōu)化實現(xiàn)了萬級別超長動態(tài)窗口的擴(kuò)張能力,本次開源的預(yù)訓(xùn)練模型開放了4K上下文窗口,使模型應(yīng)用場景更加廣泛。
此外,baichuan-7B還對模型訓(xùn)練流程進(jìn)行了深度優(yōu)化,采用了更科學(xué)且穩(wěn)定的訓(xùn)練流程和超參數(shù)選擇,使得 baichuan-7B模型的收斂速度大大提升。與同等參數(shù)規(guī)模的模型相比,baichuan-7B在困惑度(PPL)和訓(xùn)練損失(training loss)等關(guān)鍵性能指標(biāo)上表現(xiàn)更加優(yōu)秀。
秉持開源精神,baichuan-7B代碼采用Apache-2.0協(xié)議,模型權(quán)重采用了免費商用協(xié)議,只需進(jìn)行簡單登記即可免費商用。
baichuan-7B此次開源的內(nèi)容十分豐富,包含了推理代碼、INT4量化實現(xiàn)、微調(diào)代碼,以及預(yù)訓(xùn)練模型的權(quán)重。其中,微調(diào)代碼方便用戶對模型進(jìn)行調(diào)整和優(yōu)化;推理代碼與INT4量化實現(xiàn)則有助于開發(fā)者低成本地進(jìn)行模型的部署和應(yīng)用;預(yù)訓(xùn)練模型權(quán)重開源后,用戶則可以直接使用預(yù)訓(xùn)練模型進(jìn)行各種實驗研究。
據(jù)了解,北京大學(xué)和清華大學(xué)兩所頂尖大學(xué)已率先使用baichuan-7B模型推進(jìn)相關(guān)研究工作,并計劃在未來與百川智能深入合作,共同推動baichuan-7B模型的應(yīng)用和發(fā)展。
- 美科技七巨頭遭特朗普關(guān)稅血洗 市值蒸發(fā)14萬億
- 特斯拉市值一夜蒸發(fā)超6400億元,美股科技“七巨頭”陷入調(diào)整區(qū)間
- 阿里巴巴于上海新設(shè)智信普惠科技公司,布局多領(lǐng)域技術(shù)服務(wù)
- 馬化騰短暫登頂中國富豪榜,騰訊科技與股價雙輪驅(qū)動成關(guān)鍵
- 本地生活賽道:2025年紅海變“血海”,平臺競逐白熱化
- 義烏哪吒小商品熱賣:緊跟《哪吒2》熱潮,一天賣幾百套
- 美恢復(fù)接收中國包裹,貿(mào)易政策突變引發(fā)物流界震蕩
- DeepSeek或再掀波瀾,可能對美股市場造成新一輪打擊
- 谷歌股價暴跌:收入增長放緩,人工智能支出引投資者擔(dān)憂
- 華為去年銷售收入超8600億元:ICT基礎(chǔ)設(shè)施穩(wěn)健,新業(yè)務(wù)快速發(fā)展
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。