助力數據要素市場標準化,晴數智慧發(fā)布大模型數據集企業(yè)標準

伴隨著工業(yè)化、信息化、智能化的不斷發(fā)展,數字經濟取得了顯著的成就并即將邁向新的發(fā)展階段。在此背景下,國家部委就推動以數字賦能推動產業(yè)高質量發(fā)展制定與實施一系列相關政策。不久前,工信部就鼓勵部屬單位開展數據確權授權的標準制定等方面工作展開了發(fā)表政策建議答復。

工信部網站顯示:下一步,我部將圍繞三方面做好相關工作。一是支持北京、上海等地數據交易機構高質量建設,鼓勵各類市場主體參與數據要素市場建設,探索多種形式的數據交易模式,推動數據要素價值轉化。二是推動全國統(tǒng)一數據登記平臺高水平建設,指導開展數據資產價值評估試點,打通數據要素流通堵點。三是鼓勵部屬單位開展數據確權授權的標準制定、技術研發(fā)、平臺應用、授權認證等方面工作,探索數據確權授權的落地方案和創(chuàng)新模式。

統(tǒng)一的數據要素市場建設離不開統(tǒng)一數據標準的制定。在新的依托大模型為基礎的生成式人工智能發(fā)展趨勢下,晴數智慧響應政府與市場號召,探索與制定新的符合大模型數據需求的數據分級分類企業(yè)標準,并于今日公開發(fā)布。

晴數智慧將大模型數據集生產分為L1到L3三個標準,級別越高,數據精度越高。晴數智慧希望通過這套企業(yè)標準劃分不同的數據處理層級,規(guī)范并提升數據質量,并確保數據的可靠性、有效性和知識產權的清晰性。

這三個標準之間形成了一個逐步升級與優(yōu)化的數據處理流程,從基礎的自動化清洗到逐步優(yōu)化和深度處理,以達到企業(yè)對數據質量和數據合規(guī)的雙重要求。

L1階段著重于自動化處理和基本數據清洗,由中級數據專家設計數據分布,采用一流性能的大模型,通過全自動數據清洗處理和A100/A10 GPU算力支持,確保數據的基本質量,同時強調數據知識產權的清晰性。

L1數據樣例:

L2階段在L1的基礎上進一步提升數據質量,由高級數據專家設計數據分布,同樣采用一流性能大模型進行全自動數據預清洗處理。在此基礎上引入人工篩選不合格數據,以無害性和語言模型任務完成能力為核心標準,進一步優(yōu)化數據。

L2數據樣例:

L3階段在前兩個階段的基礎上,更加注重數據的高質量和深度處理,由特級數據專家設計數據分布,同樣采用一流性能大模型協(xié)同生產并進行全自動數據預清洗處理。而后通過人工篩選并修正不合格數據,篩選標準包括事實性、相關性、流暢性、無害性以及語言模型任務完成能力,進一步確保數據的可信度和可用性。

L3數據樣例:

這三個標準層級在數據頂層設計、數據處理的自動化程度、人工干預程度以及數據篩選的嚴格程度上存在差異。通過這一套企業(yè)標準,晴數智慧希望在數據產品及服務交付過程中確保數據質量、幫助客戶針對性提升模型性能以及滿足不同任務需求。

晴數智慧希望這套大模型數據集企業(yè)標準能為政府有關部門及合作伙伴提供一定的參考和借鑒,助力統(tǒng)一數據要素市場的建設。

更多標準詳情,咨詢晴數智慧。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )