屏前幕后,孜孜不倦的人們,用「數據標注」教會 AI 認識現(xiàn)實世界。而他們所處的數據采標行業(yè)本身,也正在從早期粗糙的「數據作坊」發(fā)展成為「數據工廠」的專業(yè)化運作。
如今,這些流程已經發(fā)展出一條完整的產業(yè)鏈——采集、整理、清洗、標注,流水線似的過程恰恰是 AI 算法模型精確運行的根基所在。隨著 AI 技術在應用場景下沉,AI 企業(yè)對算法落地性要求越來越高。此時,垂直精細和定制化數據顯得尤為重要。
2018 年,中國人工智能基礎數據服務市場規(guī)模為 25.86 億元,其中數據資源定制服務占比 86%。Testin云測旗下的 AI 數據服務品牌「云測數據」的出現(xiàn),就是一個典型案例。
通過定制化場景搭建,幫助 AI 企業(yè)或部門構建數據核心壁壘,提供人工智能場景化落地最需要的數據,這既是客戶獲取差異化優(yōu)勢的保證,同時也是云測數據的核心競爭力之一。
周一,忙碌的工作照常被擰上發(fā)條,北京 2019 年的第一場大雪如期而至,這一天讓張儷興奮不已的不僅僅是大雪,還有她手中剛接下的項目訂單。
客戶是一家圈內名氣不小的自動駕駛公司,他們提供給張儷(化名)一套數萬張的道路數據集,張儷將任務分配給服務智能駕駛方向的小組員工。
十天左右,該套數據里的自動駕駛行車道檢測圖像即可標注完成,準確率超過客戶要求。
兩年前,就職于一家電商公司的張儷不會想到,兩年后的自己會和「高精尖」的人工智能技術打交道。
2017 年末,張儷所在的電商公司因為 O2O 市場降溫而倒閉。失業(yè)后不久,張儷在一位算法工程師朋友的推薦下,來到 Testin云測,開啟了一段不同尋常的工作,人工智能的訓練員——數據標注。
一開始,她只需要標注出圖像中的人物性別,工作內容簡單而機械。
接著,她開始給人物標注年齡段,開始框定 2D 對象,然后標注 3D 邊界框,再從白晝圖像到深夜和多霧場景……場景越來越多元、標注需求越來越詳盡,最后這些經過人類點撥過的數據被一股腦地投入神經網絡的研發(fā)之中。
到現(xiàn)在,張儷已經成長為一名項目經理助理,她的日常工作從標注轉向項目承接,那些 AI 圈里耳熟能詳的明星公司都是她的重要客戶。
與數據標注師相類似,螞蟻森林護林員、垃圾分類師、毒雞湯文案師……這些看似匪夷所思的新職業(yè),已經與我們生活絲絲相扣。
一份今年的新興職業(yè)報告數據顯示,「小鎮(zhèn)青年」是 40 余種新職業(yè)的主力軍,從業(yè)者約一半生活在三四五線市縣,其中三分之二以上是兼職。
「非專業(yè)、兼職、勞動力密集型」——是報告為數據標注師圈定的標簽,雖然不免有些以偏概全,但談起「標注員」,確實很難將其與「專業(yè)化」、「技藝型」、「創(chuàng)造力」等字眼掛鉤。
但如今,數據服務的產業(yè)鏈條正在被重塑。AI 企業(yè)對于數據的應用需求逐漸分化,精細度要求也越來越高,以往一味的粗放式加工模式已經喪失市場競爭力,大浪淘沙,從奔騰到平靜,泥沙聚沉,清流上涌。
Testin云測旗下的 AI 數據服務品牌「云測數據」的出現(xiàn),就是重塑整個產業(yè)和標注員印象的一個典型案例。
一、小數據的大天地
根據佐治亞理工學院的一項研究——通過對 8 個圖像識別系統(tǒng)的測試,發(fā)現(xiàn)自動駕駛汽車的傳感器和攝像頭,更善于檢測膚色較淺的人,而膚色較深被檢測出的準確率平均會低 5%。
結論一經報道,諸如「AI 行業(yè)也存在種族歧視」的言論便充斥在各大媒體上。
然而,從技術角度來看,計算機視覺是通過 RGB 或 RGBD 識別人(物體)的信息,但是黑色是最難被識別的(黑色或深色的 RGB 整體數值偏小),尤其在實際情況中,系統(tǒng)也欠缺黑色及深色的數據,由此導致算法模型不夠精確,最終技術在實際落地應用時出現(xiàn)差錯。
在數據服務行業(yè),這種細分且稀缺的數據統(tǒng)一被稱為「小數據」。
比如道路安防攝像頭,攝像頭中囊括行人、機動車、自行車數據,卻唯獨缺少行人跌倒數據;在自動駕駛領域,監(jiān)測系統(tǒng)需要采集駕駛員各種狀態(tài)數據,但缺少疲勞狀態(tài)的數據。
賈宇航(云測數據總經理)解釋道,云測數據針對這些需求,為客戶定制場景、采集數據,在自動駕駛場景中,云測數據可以讓駕駛員先開 6 個小時車,最終采集到真實的疲勞數據。
據了解,云測數據目前的整個數據服務人員已達千人規(guī)模,通過標審分離的流程化作業(yè)模式和數據安全機制,更好的保證數據的高質量產出和數據隱私性,從而更好地為人工智能落地提供定制化『數據養(yǎng)料』。
數據服務行業(yè)早期,企業(yè)主要通過數據爬蟲收集數據,數據服務門檻很低,各個企業(yè)野蠻生長、魚龍混雜;第二階段開源/付費數據集開始出現(xiàn),主要分為語音類、圖像類、NLP 類數據集等。
隨著 AI 的發(fā)展,僅僅靠數據收集已經不能滿足客戶的算法訓練需求,第三階段的 AI 數據眾包平臺應運而生,在眾包平臺上,可進行更豐富多樣的數據采集與標注,進一步提升 AI 的能力。
當時百度和亞馬遜都曾發(fā)展過此項業(yè)務,2011 年百度數據眾包就以部門的形式成立,不僅為百度內部需求方如百度 NLP、百度地圖等提供 AI 數據采集和標注服務,同樣將數據眾包業(yè)務進行開放,根據客戶需求制定數據采集方案。
如今 AI 與各個產業(yè)結合得愈加緊密,為保證算法優(yōu)勢,客戶需要采用定制化服務,由客提出具體需求,數據服務商對數據進行采集并標注,定制化數據的需求日益增長標志著數據服務 4.0 時代已經來臨。
根據艾瑞《中國人工智能基礎數據服務行業(yè)白皮書》顯示,2018 年,數據資源定制服務已在基礎數據服務市場占據 86.2% 的份額。
二、 場景實驗室里的故事
浙江橫店,三腳架支起的鏡頭面前,往后延伸出長長的隊伍,這些群演并非在演戲試鏡,而是采集情緒數據。
「咔」地一聲,鏡頭面前,攝影燈下,群演們或大笑、或痛苦、或憤怒,表情的自然程度決定他們是否通過第一輪試鏡,進入第二輪,考核的標準更為嚴苛。
群演面前立著一面鏡子,鏡子旁邊便是審核人,「想想你上一次失戀是什么時候,心情怎樣」,「你到現(xiàn)在最有成就感事情是什么」,諸如此類的問答也是采集基地的苦心安排——引導情緒、烘托氣氛,保證情緒采集過程的真實、自然。
數據采集完成后,云測數據標注員工需要根據圖片表現(xiàn)的情緒進行精準標注,未經精準標注的數據,人工智能無法理解其中意義。
正如賈宇航所言,云測數據的采標業(yè)務正是整個 AI 產業(yè)所迫切需要的,橫店群演的情緒采集只是場景化定制數據的一個縮影。根據企業(yè)數據需求,還原 AI 應用真實場景,這不僅需要深入理解需求,還需要快速構建場景,而且對人力資源的調配能力也提出挑戰(zhàn)。
云測數據的服務采取項目制,每位專業(yè)項目經理經過了 30-60 天的職前培訓,幫助客戶拆分原始需求、優(yōu)化項目執(zhí)行方案,項目經理集中培訓后,再由項目經理針對具體的項目對標注、質檢、審核員工進行培訓。
紛繁復雜的需求背后,有的是剛需,有的則是「無用功」,定制過程中,云測數據需要根據以往項目經驗及實地調查來明確需求,此后再細化、優(yōu)化需求,幫助客戶完成復雜場景的落地,同時避免客戶花費更多成本。
在采集過程中云測數據會運用專業(yè)的軟/硬件設備,比如用測光強度的設備來滿足客戶的環(huán)境光照要求,如果客戶需要純凈音頻數據,那云測數據會搭建一個錄音棚,滿足諸如混響或者高底噪的定制化需求,最后再用麥克風進行錄制。
在云測數據交付部門負責人朱文輝看來,整個行業(yè)仍處在早期,客戶需求變更經常發(fā)生;其次,行業(yè)內部面臨很多的不確定性,采標現(xiàn)場的籌備環(huán)節(jié),人員的管理問題,需要一系列的協(xié)同化處理。
如果說數據采集只是備齊食材,那么標注流程稱得上后期「烹飪」環(huán)節(jié),幫場景數據「訓練」算法模型完成最后一道工序。
在標注環(huán)節(jié),云測數據擁有線上自研的數據標注平臺——平臺上聚合著如圖像、文本、音頻等數據類型的先進標注工具,尤其是在 3D 點云的標注系統(tǒng)中優(yōu)化了渲染引擎,保證整個過程的流暢和快捷,當屬業(yè)內領先。
據朱文輝介紹,「研發(fā)團隊里有產品經理、前后端工程師」等,他們會針對不同領域循環(huán)式地改進標注工具,并根據客戶需求,實時反饋、實時更新、實時研發(fā)?!肝覀兊牡俣纫恢焙芸臁怪煳妮x回憶道:「迭代之后有些領域的效率提高了三倍不止?!?/p>
除了自研線上標注平臺,云測數據分別在華東、華南、華北自建了標注基地,還有幾個基地正在部署中。在確保標注數據準確率的同時,有效保證標注作業(yè)的信息流轉和數據安全。
由于標注是人工完成,本身主觀性因素較大,加之行業(yè)缺乏統(tǒng)一的標注數據標準,這使得標注工作充滿不確定性。
「標注的過程是一個顛覆常識的過程」,朱文輝笑著說道,「不同人對待同一件事情標準是不一樣的,比如眼睛的大小,鼻子的高低,嘴唇的薄厚,每個人的標準都不一樣,主觀性很強,在判斷的過程中,我們會與客戶一起溝通交流需求,厘清標準;其次,有的標注事件異常復雜,需要對標簽進行優(yōu)化,例如人臉識別,描述一張人臉需要 80 多個標簽,此時云測數據會把該項目拆成 5 大類,分工完成,最終拼湊成完整的結果輸出」。
三、數據安全「密鑰」
2019 年 10 月 28 日,杭州「人臉識別「第一案將」究竟誰有權收集我們的人臉信息「這一話題推向輿論高地,事隔一個月,轉轉、咸魚、淘寶等平臺」5000 多張人臉照標價 10 元「的新聞在行業(yè)里又掀一輪風波。
數據的惡意倒買倒賣已足夠駭人聽聞,而另一方面,平臺未經用戶授權,將用戶數據記錄、用作自身系統(tǒng)優(yōu)化更是讓人防不勝防。
今年 1 月,蘋果在 CES 會展中心場外拉起一塊以隱私為主題的巨幅戶外廣告牌——「what happens on your iPhone,stays on your iPhone」。廣告采用黑底白字的極簡風格,但現(xiàn)實卻往往是灰色的——亞馬遜、蘋果、谷歌等公司都存在監(jiān)聽用戶數據的行為。
正如科技巨頭們?yōu)樽陨磙q解的那樣,「監(jiān)聽數據是為了優(yōu)化算法模型,提高用戶體驗」,但他們卻從未澄清重要事實——使用人工聽取錄音,標注用戶關鍵信息,致使大量用戶個人隱私泄露。
如今,面對輿論壓力,科技巨頭們開始調整戰(zhàn)略,亞馬遜允許 Alexa 用戶選擇對錄音不進行人工審核;蘋果開始允許用戶刪除 Siri 的歷史記錄,把共享錄音設為可選項;谷歌暫停人工轉錄 Assistant 音頻。
平臺應用方竊取數據進行相關標注,已經讓平臺用戶人人自危,而在專業(yè)第三方數據采標公司里,數據安全問題更是凸顯。
目前數據服務行業(yè)中,在保障數據安全層面,主要包括私有化離線部署,駐場標注,數據存儲在客戶本地;第二則是公有部署,數據接入在公有云服務器,通過數據接口加密、定期巡查、反爬蟲機制保證數據安全。
作為AI數據服務的頭部企業(yè)的云測數據,一直將數據隱私、數據安全放在業(yè)務開展的首要地位。在賈宇航看來,數據安全領域,無論是 AI 公司還是數據服務公司,眼光都要長遠一些,采用未經授權的數據當然可以控制成本,但是當行業(yè)進入越來越規(guī)范的階段,前期的野蠻發(fā)展終究會造成不良后果。
在保證數據安全方面,云測數據有三層面投入:
首先,不濫用數據,數據交付后清毀數據不留底,絕不二次使用;
第二,不侵犯隱私,與所有數據采集的用戶都簽訂數據授權協(xié)議,確保AI企業(yè)用于訓練的數據合法合規(guī);
第三,建立相關的數據保障機制,如從防火墻的設置、內部信息系統(tǒng)的管護、乃至標準化的流程作業(yè)體系等。
Testin云測 CMO 張鵬飛也補充道,「從整體看來,AI 數據行業(yè)關于安全、隱私等方面并沒有統(tǒng)一的標準和強調重視。但從我們長遠角度出發(fā),一直在隱私和安全防護角度下大力氣服務行業(yè)、樹立數據質量標桿,只有以這種負責的態(tài)度來服務客戶,我們的行業(yè)才能『良幣驅除劣幣』,真正讓人工智能成為新一輪技術革命,改變整個社會和人類進程」。
四、縱橫發(fā)展,數據服務的下一幕
目前,整個市場需求正向「一縱一橫「方向發(fā)展,」一橫「即指越來越多的行業(yè)開始運用 AI,不管是金融、保險、物流、零售還是智能制造等行業(yè)。云測數據的客戶主要分為兩大類,一種是運用 AI 顛覆行業(yè),一種是在傳統(tǒng)行業(yè)引入 AI,后者正在變得越來越多。
「一縱「是指 AI 與已有行業(yè)結合得越來越深,AI 正從大量數據驅動變成了與產業(yè)相結合,需要與產業(yè)專家進行合作,例如在人臉識別場景,早期只用識別人臉,之后發(fā)展到情緒檢測,后期愈加深入細分——如微表情識別。
賈宇航用人臉關鍵點標注來舉例。幾年前的人臉關鍵點標注任務要簡單很多,那時標注員只需在人臉上標出幾個點就行。而現(xiàn)在,人臉關鍵點標注可涉及多達 206 個點:每個眉毛上有 8+個點,嘴唇上有 20+個點,下頜輪廓上有 17+個點。在更多領域擁抱人工智能的趨勢下,數據服務從業(yè)者也需具備相應的領域知識。
「一縱「趨勢讓 AI 數據服務逐漸從一個行業(yè)變成產業(yè),成本已不是企業(yè)唯一考量因素,管理效率,數據安全,數據質量同樣重要。
早期行業(yè)的數據精度要求較低,工作機械化,如今正處在人工智能產業(yè)化落地前夕,算法對數據準確度要求越來越高,行業(yè)的創(chuàng)造性被激發(fā)出來,需要越來越專業(yè)的公司從事,留給數據標注兼職業(yè)態(tài)的生存空間將越來越小,而行業(yè)也逐漸從勞動密集型轉變成技藝密集型。
數據標注服務從業(yè)者是人工智能背后的「英雄」,從長期來看,AI 越來越智能,但對于偏感性的判斷仍比較難,如 AI 對文字的演化和情緒的識別仍是弱勢,未來 AI 要處理行業(yè)內更為復雜的問題,但人的感知力和判斷力不能被替代。
雖然人力不可替代,但對數據標注員的專業(yè)要求將越來越高卻是無疑。
隨著「一縱」趨勢的深入,很多數據標注工作要交由專業(yè)人士去做。標注員將從兼職向全職再向具備專業(yè)領域知識的全職員工進化,從業(yè)門檻的提高其實是行業(yè)變遷的縮影,數據標注服務正從以往的「數據作坊」向流水線作業(yè)再向具備創(chuàng)造力與專業(yè)性的行業(yè)轉變。
依靠以往海量粗放的數據喂養(yǎng)已遠遠不能滿足如今 AI 行業(yè)的發(fā)展,而愈來愈精細的數據正是導致行業(yè)變遷的最大變量。
因此,AI 企業(yè)需要數據服務商強大的采標能力,保證數據安全及高質量,而與此對應的各類場景搭建、條件變換、特殊人群都是「稀缺資源」,所謂「天下大事必作于細」,在 AI 行業(yè)下半場競爭中,云測數據作為定制化數據服務提供商,通過提供「稀缺資源」、「以小博大」,在幫助算法公司獲得優(yōu)勢的同時,贏得自身的差異化競爭力。
- 英國警方呼吁蘋果谷歌:共同守護被盜手機,別讓云服務成為犯罪新手段
- 商務部回應汽車行業(yè)“內卷”:引導合規(guī)競爭,整治無序競爭
- 董明珠揭秘企業(yè)誠信:流量營銷陷阱難長久,實干精神才是長久之計
- 小鵬華為聯(lián)手新科技,G7首發(fā)AR-HUD,駕駛體驗再升級!
- WiFi萬能鑰匙科技向善之旅:從公益WiFi到教育公益,共創(chuàng)美好未來
- 網絡安全困境突圍:破解三重難題,守護數字世界
- 2025年Q1互聯(lián)網企業(yè)業(yè)績榜揭曉:京東一騎絕塵,劉強東的貢獻成焦點
- 英偉達中國市場遭遇挑戰(zhàn):人才流失與競爭壓力下的地位動搖
- 哈啰出行披露8億用戶足跡,綠色出行與可持續(xù)發(fā)展并駕齊驅
- 英偉達破釜沉舟,百萬美元游說美政府打破出口限制,避免損失海量市值
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。