當聽障人士實現(xiàn)手語自由:手語AI平臺的產(chǎn)業(yè)狂想

原標題:當聽障人士實現(xiàn)手語自由:手語AI平臺的產(chǎn)業(yè)狂想

盼望著,盼望著,春天的腳步近了,雪容融也終于正式上崗,迎來了自己的主場——2022北京冬殘奧會。

本屆冬奧會不僅是運動員們的競技舞臺,更是科技公司“秀肌肉”的絕佳舞臺。諸多科技亮點之中,大家可能都注意到了,冰墩墩和雪容融有一位共同的“同事”——手語數(shù)字人。

2月4日晚開幕的冬奧會上,央視新聞AI手語主播正式上崗,陪伴聽障人士見證了一場場精彩絕倫的比賽。即將開幕的冬殘奧會,這位手語數(shù)字人也義不容辭,將披掛上陣,讓聽障人士實時感受冰雪運動的魅力。

創(chuàng)造豐厚的冬奧遺產(chǎn),為國家、主辦城市、人民群眾帶來長期的、積極的收益,也是成功辦奧的重要標志之一。在日常生活中,手語數(shù)字人能不能繼續(xù)發(fā)光發(fā)熱,為聽障人士提供服務(wù)呢?

我們關(guān)注到,3月3日,央視新聞AI手語主播的制作者——百度智能云曦,又推出“AI手語平臺”,通過分鐘級生成手語合成視頻、手語主播實時直播等能力,為手語服務(wù)的普及難題,提出了科技平臺化的新解法。

同時,百度智能云曦靈還發(fā)布了“AI手語平臺一體機”,讓一些需要硬件交互的場景,比如醫(yī)院、銀行、車站等公共場合,插電即可提供手語服務(wù),快速部署無障礙窗口。

平臺化和軟硬協(xié)作的革新,正在讓手語數(shù)字人走上一條與社會價值長期對接、一同成長的進化之路。

科技巨頭們都在積極打造手語數(shù)字人,反映出哪些潮水的方向?數(shù)字生命與智能技術(shù)的溫情加速照進現(xiàn)實,這究竟意味著什么?

數(shù)字生命覺醒時:手語數(shù)字人的能力體系

百度智能云曦靈平臺賦予手語數(shù)字人哪些特殊能力?我們不妨以人類手語老師的標準來審視一下。

有一種“難”,叫朱廣權(quán)的手語老師,想要實時且準確地翻譯出朱廣權(quán)的妙語連珠,千挑萬選的央視手語老師有時也難免手忙腳亂。而在此前與朱廣權(quán)的在線pk中,這位由“百度智能云曦靈”打造的首個AI手語主播,面對朱廣權(quán)不斷拋出的超高速順口溜,立馬就能做出反應(yīng),表現(xiàn)出流暢、精準的業(yè)務(wù)能力。

綜合來看,手語主播的華麗炫技,以及冬奧會上的扎實服務(wù),來自百度智能云曦靈平臺提供的三個方面的基礎(chǔ)能力:

1.理解能力。

真實世界中,很容易受到噪音干擾,人類手語老師必須聽清、聽懂新聞內(nèi)容,不然翻譯出來也可能是錯誤的,一通比劃猛如虎,但無法真正投入使用。

想要聽清,需要領(lǐng)先的語音識別能力。百度智能云曦靈平臺融合了百度自然語言處理技術(shù),成熟領(lǐng)先的全雙工ASR(Automatic Speech Recognition)語音識別模型,近場中文普通話的識別準確率,能夠達到98%以上。

輕松搞定各種語音內(nèi)容,即使段子手朱廣權(quán)的神級語速也不在話下,這為后續(xù)數(shù)字人的手語翻譯打下了堅實的基礎(chǔ),使得AI手語平臺一體機更好地應(yīng)用于不同場景中。

2.翻譯能力。

感知之外,手語老師要分析、歸納重要信息,根據(jù)語句整體意思進行精煉和語序調(diào)整,將其轉(zhuǎn)換成手語語言。

一些廠商研發(fā)的手語數(shù)字人直接采用“手勢漢語語料”,好處是無需重新標注,節(jié)省時間,問題是生硬地按照說話順序?qū)⑹终Z手勢連接起來,并不能算是“人類高質(zhì)量手語”。

舉個例子,“我想回家”并不是將這四個漢字依次比劃出來,而是按照“家”、“回”、“我想”的順序來表達。

因此,想要翻得準,手語數(shù)字人必須學(xué)會自然手語語序。百度智能云曦靈平臺就基于“國家手語語法規(guī)則”,聯(lián)合手語語言學(xué)專家,特殊教育專家、天津理工大學(xué)等,邀請上百位聽障學(xué)生做數(shù)據(jù)標注,形成了近千萬的高質(zhì)量訓(xùn)練數(shù)據(jù)。

有了數(shù)據(jù),接下來就是模型設(shè)定與訓(xùn)練?;诎俣榷嗄攴e累的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù),設(shè)計了從中文文本到手語符號的翻譯方法,打造出了業(yè)內(nèi)首個基于神經(jīng)網(wǎng)絡(luò)的精煉度可控手語翻譯模型,讓手語數(shù)字人的翻譯可懂度達到85%以上,媲美主流的中英,中日等方向的機器翻譯結(jié)果。

3.表達能力。

手語中,手勢必不可少,還需要表情、口型、動作等肢體語言的配合,幫助聽障人士更好地理解。比如疑問句“吃飯了嗎“,不僅要做出吃飯的手勢,還要配上疑惑的表情,眉頭皺起、眼睛睜大。

要讓手語數(shù)字人聲情并茂、手舞足蹈地表達,尤其是3D人像,有著不小的技術(shù)難度。一些手語數(shù)字人動作過快,有時又存在卡頓不連貫的情況。為了訓(xùn)練手語數(shù)字人的“聲臺形表“,百度智能云曦靈平臺也是煞費苦心:

表情上,百度智能云用4D掃描數(shù)據(jù),積累了超1萬個臉部面4D數(shù)據(jù),借助高精數(shù)字人“文字到形狀的跨模態(tài)面部表情生成技術(shù)”,能夠準確生成微笑、開心笑、wink、吹泡泡、白眼、思考等表情??谛秃铣蓽蚀_性達98.5%,a和e這樣發(fā)音時表情接近的字母,都可以細致的區(qū)分。

驅(qū)動時,通過個性化TTS,根據(jù)輸入的文本/語音信息來進行自適應(yīng),結(jié)合多種預(yù)置動作,驅(qū)動數(shù)字人的唇形、肢體、表情、手勢等自動生成。多模態(tài)的手語表達,能夠傳遞出更豐富、準確、易于理解的信息。

同時,百度智能云曦靈平臺搭載的開放域?qū)υ捚脚_PLATO-XL,是百度基于百億級訓(xùn)練參數(shù)、多年搜索及知識圖譜積累而訓(xùn)練出來的,被認為是當前最大規(guī)模的中英文對話模型。通過它可以快速驅(qū)動數(shù)字人實現(xiàn)直播、動畫等內(nèi)容,達到多場景下的實時溝通。

縱觀手語數(shù)字人的能力體系,不難發(fā)現(xiàn),頭部科技公司相繼推出了自己的手語機器人,除了體現(xiàn)科技的人文關(guān)懷之外,還隱藏著技術(shù)發(fā)展的必然。

必須在算力、數(shù)據(jù)、算法三方面都有強大的能力,在語音、視覺、NLP、知識圖譜等領(lǐng)域都有領(lǐng)先優(yōu)勢,才能讓手語數(shù)字人真正覺醒在屏幕前、生活中。

百度作為國內(nèi)AI 技術(shù)布局更完整的公司,能最快地實現(xiàn)手語數(shù)字人的大規(guī)模應(yīng)用,原因正在于此。

數(shù)字生命的平臺化復(fù)制:手語數(shù)字人插上產(chǎn)業(yè)之翼

在冬奧會和即將到來的冬殘奧會上的大規(guī)模應(yīng)用,幾乎代表了現(xiàn)階段數(shù)字虛擬人的最高水平,是典型的數(shù)字生命:具備完成復(fù)雜目標的能力(通過手語翻譯傳遞賽事信息),以及實時學(xué)習(xí)進化的能力(收集信息、實時互動、做出回應(yīng),而非提前錄制)。

正如未來生命研究所的創(chuàng)始人:邁克斯·泰格馬克所說,數(shù)字生命是一種能夠自我復(fù)制的信息處理系統(tǒng),物理結(jié)構(gòu)是其硬件,行為和“算法”是其軟件。這決定了,手語數(shù)字人必須向軟硬協(xié)作、規(guī)模復(fù)制的方向發(fā)展。

3月3日,百度智能云曦靈發(fā)布AI手語平臺和“AI手語平臺一體機”,或許正在為手語數(shù)字人插上產(chǎn)業(yè)騰飛的翅膀。

為什么這么說?手語數(shù)字人雖好,卻不能低估技術(shù)產(chǎn)業(yè)化的難度,至少有幾座大山橫亙在前面:

第一座大山,是效率之謎。

對于新興的手語數(shù)字人領(lǐng)域,制作難度大、周期長、技術(shù)門檻高,服務(wù)的群體相對較小,很多行業(yè)和企業(yè)在引入之前都會顧慮,會不會需要大量的人力財力成本,會不會效果不好沒人用,思前想后就是等等再說。要讓全社會聽障人士都享受到技術(shù)紅利,還是要尊重產(chǎn)業(yè)規(guī)律,降低新技術(shù)的應(yīng)用門檻,真正讓手語數(shù)字人的制作“降本增效”。

百度智能云曦靈的手語數(shù)字人平臺,出現(xiàn)得恰逢其時?!癆I手語平臺”具備“視頻手語合成”“直播手語合成”“文本轉(zhuǎn)手語”“語音轉(zhuǎn)手語”四大功能,可實現(xiàn)普通視頻合成為手語視頻、實時直播中增加手語畫面、文字翻譯為手語、語音實時翻譯為手語等多種效果。AI手語平臺可搭載在各類APP、網(wǎng)站、小程序中,讓聽障人士也能輕松實現(xiàn)線上社交、娛樂休閑、課程學(xué)習(xí)等各類需求。

同時,百度智能云曦靈還設(shè)置了三大平臺,讓手語數(shù)字人可以被快速、標準化、高效地生產(chǎn)和交付。比如在人設(shè)管理平臺上,根據(jù)不同的場景搭配設(shè)置不同的人設(shè),比如銀行中引入的手語數(shù)字人可以專業(yè)、嚴謹,景區(qū)中使用的手語數(shù)字人則親和、活潑等,適應(yīng)千行百業(yè)的需求。

平臺化、標準化、體系化的能力,使得AI驅(qū)動的2D數(shù)字人,生產(chǎn)周期只需要幾個小時,3D虛擬偶像一兩個星期就能開發(fā)出來,輕松飛越效率這座大山。

第二座大山,是體驗之困。

大家可能注意到了,在百度智能云曦靈發(fā)布 “AI手語平臺一體機”之前,幾乎所有的手語數(shù)字人都是以軟件形式存在的。專門打造一款手語數(shù)字人硬件,真的有必要嗎?

從根本上來說,我們所知的所有生命形式都有著生物“硬件”的載體,有技術(shù)人員認為,“生命3.0”階段的數(shù)字生命,不僅要具備設(shè)計自身軟件的進化能力,還能設(shè)計自身硬件。

很多銀行、醫(yī)院等都在引入人形智能機器人,來增加用戶的體驗感。具體到手語數(shù)字人,作為未來在社交、電商、直播、客服、導(dǎo)游等領(lǐng)域的服務(wù)載體,企業(yè)與聽障用戶交互的關(guān)鍵入口,如果只能通過軟件來互動,顯然是不夠方便。

但是,開發(fā)一個人形手語機器人又涉及到一個相當漫長且復(fù)雜的產(chǎn)業(yè)鏈,很容易讓企業(yè)望而卻步。

百度智能云曦靈此次發(fā)布的全離線一體機V3以及端云結(jié)合一體機P3,搭載了“AI手語平臺”的核心功能, AI手語數(shù)字人可以像手機、電腦一樣被快速、批量生產(chǎn),到線下生活的各個角落中服務(wù)聽障人群。

其中本地全離線一體機,在一些網(wǎng)絡(luò)情況不佳的區(qū)域,比如偏遠的山村、景區(qū)等地,依然能夠進行手語翻譯、人像渲染等操作,提供文本轉(zhuǎn)手語、語音轉(zhuǎn)手語等服務(wù)。

端云結(jié)合一體機,則通過云端計算+本地渲染的形式,也能靈活地實現(xiàn)手語服務(wù)。

第三座大山,則是進化之難。

衡量一個數(shù)字生命的標準之一,就是具備自主學(xué)習(xí)、自主適應(yīng)、自我進化的能力,這需要全面的AI能力支撐。目前,整個手語機器人的產(chǎn)業(yè)鏈還沒有被完全打通,盡管一些企業(yè)打出了“手語數(shù)字人“的概念,但只能在部分場合、部分視頻中露臉。

推動手語數(shù)字人在真實的產(chǎn)業(yè)場景之中不斷升級,是AI產(chǎn)業(yè)化中必不可少的一種能力。在中國的AI科技企業(yè)當中,像百度這樣具備從底層算力、開發(fā)框架到產(chǎn)業(yè)解決方案的全棧AI能力的公司,并不多見。

目前看來,百度的全棧AI能力融入到百度智能云曦靈當中,給數(shù)字人升級能力帶來了無限潛力,也將加速手語數(shù)字人這一“新物種“的全場景覆蓋。

通過與產(chǎn)業(yè)的深度融合,手語數(shù)字人也將變得越來越復(fù)雜和聰明,進化成為真正的數(shù)字生命。

目前,我國有近2780萬聽障人士,而手語翻譯老師只有1萬人左右,許多場景中無法快速跟上手語服務(wù),在飛速發(fā)展變化的社會中,很容易造成新的不公平。

而百度智能云曦靈的AI手語平臺,讓手語數(shù)字人的規(guī)?;瘡?fù)制變得更加可行;“AI手語平臺一體機”,讓數(shù)字人技術(shù)帶來的體驗更加豐富和多元。

數(shù)字生命的平臺化復(fù)制,是社會責任不會變成空談的前提,意味著商業(yè)價值與技術(shù)普惠的一次和解,也預(yù)示著手語數(shù)字人市場的快速打開。

AI產(chǎn)業(yè)的無形之變:手語數(shù)字人帶來的連鎖反應(yīng)

平臺化和軟硬一體,規(guī)模復(fù)制的產(chǎn)業(yè)落地效率與直觀的體驗價值,讓百度智能云曦靈在手語數(shù)字人的競爭中,已經(jīng)獲得了先發(fā)優(yōu)勢。

技術(shù)無障礙除了讓殘障群體受益,還將給企業(yè)自身和整個產(chǎn)業(yè)帶來意想不到的收獲。手語數(shù)字人的普及,換來的是AI受眾的擴大和手語服務(wù)的延展,會讓許多我們習(xí)以為常的場景出現(xiàn)明顯的擴容與創(chuàng)新,并引發(fā)一系列連鎖反應(yīng)。

首先,AI手語解決方案不斷復(fù)制到各行各業(yè),讓聽障人士樂于去用,企業(yè)和機構(gòu)樂于引入手語服務(wù),讓手語數(shù)字人的落地場景會愈加豐富,在公益屬性、社交、傳播營銷等領(lǐng)域的價值將一一顯現(xiàn)。

其次,數(shù)字人作為公認的虛擬世界入口,帶來巨大的商業(yè)空間,已經(jīng)成為互聯(lián)網(wǎng)科技企業(yè)的下一幕競爭焦點。搶占數(shù)字人規(guī)?;a(chǎn)的機遇,培養(yǎng)B端市場的信任感與忠誠度,有助于在接下來的市場競爭中占據(jù)優(yōu)勢。

更進一步,百度智能云曦靈在技術(shù)的領(lǐng)先性和全面性,決定了其有資格參與甚至主導(dǎo)數(shù)字人行業(yè)標準的建立,將吸引大量開發(fā)者和產(chǎn)業(yè)鏈上下游加速匯聚到生態(tài)體系內(nèi),推動技術(shù)不斷迭代和應(yīng)用持續(xù)創(chuàng)新,預(yù)先探索數(shù)字人的商業(yè)模式,帶動云計算、AIoT等領(lǐng)域的增長,對于中國數(shù)字經(jīng)濟的發(fā)展有著重要作用。

以前提到智能科技,大家可能更多地關(guān)注獨角獸、投融資、數(shù)字經(jīng)濟等宏大概念,而現(xiàn)在,手語數(shù)字人這樣的智能新物種,正在給殘障群體日常生活中的“小事”帶來便利。

從冬奧主播到AI手語平臺,百度智能云曦靈向世界證明,只需要打開一個通道、接通一座橋梁,技術(shù)紅利就可以源源不斷地匯聚到那些需要它的人群當中。

許人類一個更美好的未來,這或許是AI故事里,最溫暖人心的章節(jié)。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-03-04
當聽障人士實現(xiàn)手語自由:手語AI平臺的產(chǎn)業(yè)狂想
我們關(guān)注到,3月3日,央視新聞AI手語主播的制作者——百度智能云曦,又推出“AI手語平臺”,通過分鐘級生成手語合成視頻、手語主播實時直播等能力,為手語服務(wù)的普及難題,提出了科技平臺化的新解法。

長按掃碼 閱讀全文