2019年《中國人工智能基礎數據服務行業(yè)白皮書》顯示,2018年中國人工智能基礎數據服務市場規(guī)模達到25.86億元,預計到2025年市場規(guī)?;驅⑼黄?13億元。人工智能基礎數據服務市場呈現出巨大發(fā)展?jié)摿Α5殡S著需求的不斷膨脹,基礎數據服務商在迎來機會的同時,也面臨新的挑戰(zhàn)——如何有效提升數據標注的產能。
面對良好的市場預期,基礎數據服務供應商為提升產能紛紛做出積極嘗試,2019年11月倍賽BasicFinder第二代云基礎設施——全類型SaaS數據標注工具集上線,在基礎數據服務領域探索出一條以工具賦能為核心的提升產能之路?;蛟S創(chuàng)新工具的使用將為基礎數據服務商打開新局面。
泛用性是標注工具平臺的基本能力
自始以來,算法、算力和數據就被認定為拉動人工智能發(fā)展的馬車,而數據則是馬車前進中不可缺少的輪子。由于算法和算力水平的不斷提升,以往市場上流行的標注工具已經無法適應AI數據從簡易到復雜的趨勢變化,因此,標注工具平臺的泛用性成為實現精準、高效標注的基本要素。
由于基礎數據服務商從事的標注業(yè)務具有普遍多樣性,單獨工具無法滿足業(yè)務需求。倍賽BasicFinder CEO 杜霖認為:作為SaaS標注工具,最基本的要求就是能對圖像、文本、語音、視頻以及點云數據做到一站式加工處理,沒有完善的工具集,人機協(xié)作和提升產能將成為空談。這也是為什么倍賽BasicFinder在SaaS平臺上投入精力,設計出含2D框、分詞標注、視頻追蹤、語音標注及點云標注工具等18款套件的原因,目的就是讓平臺使用者不必因更換項目而頻繁切換工具平臺。
產能提升,工具效益非人力可替代
人工智能在現實應用中多采用有監(jiān)督學習模式,基于大量標注數據的模型訓練能夠幫助算法有效降低錯誤率。雖然現在AI科學家們在探索通過小樣本數據以達到訓練目的,但就目前的應用成果看,無監(jiān)督學習或弱監(jiān)督學習仍然不能取代有監(jiān)督學習,這就使得在可預見的未來,市場對AI標注數據的需求將呈指數化持續(xù)增長,據IDC 統(tǒng)計,全球每年生產的數據量在2025年或將達到163ZB。緊張的產能需求迫使AI科技公司和基礎數據服務商對數據生產手段做出積極地調整。其中部分企業(yè)通過增加人力的方式擴充產能,但隨著人力不斷擴充,邊際收益逐漸遞減,趨于0值。雖然個別企業(yè)希望培訓機制可以進一步增加人效,卻收效甚微。在企業(yè)的調整實踐經驗下,不難發(fā)現與增加人力相比,提升標注工具平臺在人機協(xié)同方向的創(chuàng)新,或許是提升產能更“靠譜”的方式。
管理屬性和靈活性成為SaaS標注工具的優(yōu)勢
在工具平臺的選擇方面,也有部分AI科技企業(yè)和基礎數據服務商通過改寫開源工具以獲得標注能力,但往往改寫工具僅能滿足當前最急迫的標注需求,長期卻無法適應項目更替,原因在于每次標注需求的變動,都需要技術人員進行再次改寫,開發(fā)時間周期和技術人力損耗在成本上加重了企業(yè)負擔。在成本考量之外,開源工具在管理屬性和靈活性層面也相對薄弱,而對于一款相對成熟的SaaS標注工具平臺來說,“標”是平臺基礎;“管”是平臺的靈魂;“活”則是工具的延伸。
以倍賽BasicFinder SaaS標注平臺為例,其內部系統(tǒng)嵌入工作流模塊。具體工作流為:任務發(fā)布、執(zhí)行標注、結果審核、數據質檢。平臺通過每個環(huán)節(jié)的作業(yè)銜接,構建起流程管理系統(tǒng),與單純的標注工具相比,任務在SaaS平臺中可以獲得更快的流轉速度。同時由于工序之間采用封閉節(jié)點構造,執(zhí)行標注和審核工序的操作員無法對數據進行下載和傳輸,又進一步保證了數據的安全性。除流程管理外,該工具平臺還具有績效管理功能,尤其是AI企業(yè)或基礎數據服務商的管理層用戶,可以通過可視化面板了解項目的進度以及團隊下每個標注員的工作效率和完成任務的準確度??冃Ч芾砉δ艿募尤?,減少了項目經理因過度參與作業(yè)環(huán)節(jié)中的管理工作而耗費精力。之前一個項目經理能同時管理3個項目,在SaaS標注平臺的使用下可拓展管理10個,甚至更多的項目。
在工具的靈活性方面,倍賽BasicFinder SaaS標注平臺將標注標簽、標注工具、標注特質項等功能設計成可自由拖拽的模板配置形式,以指定標注范疇,規(guī)范標注員的標簽和工具使用,減少不必要的標注錯誤出現。除可自由配置模板,SaaS標注平臺也為有能力開發(fā)預標模型的AI科技公司或數據服務商提供加速工具接口。在執(zhí)行大規(guī)模的標注項目時,平臺使用者可以通過接入預標模型,對大批數據進行預處理,而后人工進行補標,以增加操作員單位時間的作業(yè)頻次,提高產能輸出。
開放數據標注能力,普惠AI基礎行業(yè)
作為基礎操作層面,標注工具能力的全面性將對數據加工者起到至關重要的作用。如倍賽BasicFinder曾為招商銀行部署數據標注工具平臺私有化系統(tǒng),通過獨立系統(tǒng)的配置,同時解決了招行關于標注工具、工序管理和數據安全三個方面的難題,一舉幫助其建立起可以獨立展開數據標注作業(yè)的能力。
在AI基礎數據服務市場的激烈競爭下,數據的標記質量和項目的執(zhí)行速率成為數據服務商獲得競爭優(yōu)勢的關鍵。由于數據標注工具私有化部署成本相對較高,倍賽BasicFinder將其 SaaS 化,大大降低了工具的使用成本,普惠中小型AI科技公司和基礎數據服務供應商,賦能AI基礎行業(yè)。
版權聲明
本文來源億歐,經億歐授權發(fā)布,版權歸原作者所有。轉載或內容合作請點擊轉載說明,違規(guī)轉載法律必究。
作者:億歐來源:億歐
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )