百度大腦AI主持人技術揭秘

文|吳俊宇

今天是五四青年節(jié),提及青年節(jié),就不得不說“德先生”和“賽先生”。

100年前的五四運動中,響徹著“只有德先生、賽先生可以救中國”的口號。

“德先生”,即“Democracy”,德莫克拉西(音譯)——意指先進的思想。

“賽先生”,即“Science”,賽因斯(音譯)——意為,“科學”,所謂“科學”是指近代自然科學法則和科學精神。

今年央視五四晚會的主持人包括“賽先生”——春晚紅包之后,央視和百度再攜手五四晚會百度大腦AI虛擬主持人“小靈”。

這個虛擬主持人和主持人王俊凱、尼格買提同臺競技,絲毫不落下風。

“小靈”背后的技術提供就是百度大腦,其中糅合了百度視覺、語音、大數(shù)據(jù)以及AR能力,打通了大小屏,讓每個電視機前的觀眾不僅可以看到晚會中的虛擬主持人,還能直接與它進行互動體驗。

當年五四運動的“總司令”陳獨秀如果見到“小靈”,恐怕也會驚嘆今天中國技術之強大。

技術秀在哪兒

在五四晚會中,主持人“小靈”邀請旁邊的真人主持人用人臉識別測測自己是祖國的什么花。女主持人和“小靈”的互動非常自然流暢。

很多觀眾有個非常強烈的感受——這個AI主持人似乎遠比市面上其他AI主持人更細膩。

其他AI主持人似乎都是機器人腔,而且發(fā)聲時嘴巴只是一張一合,明顯對不上號。百度大腦這個AI主持人,怎么看怎么覺得舒服。

要做到“舒服”可不容易,這需要語音、表情、唇動這些技術都擬合在一起。

1、語音音色要自然

一般AI語音背后都有個語音庫。我在谷歌AI博客上找了下AI語音合成的技術模型圖。

大概翻譯一些這個圖的意思:AI語音庫制作的步驟大概是三步。

第一步是將文本變成音頻,先確定音色、風格、使用領域、產品特性、角色要求。

第二步找到配音員試音,根據(jù)需求設計試音文本,收集錄音。

第三步是確投入音庫生產線,錄音腳本設計、錄音資源訓練、效果優(yōu)化、豐富音色。

百度大腦為此準備了幾十個音庫,找播音主持專業(yè)的學生專業(yè)錄制了各式各樣的聲音,具備非常豐富的音色矩陣。

每個音庫只要用戶喜歡,都可以做成一個虛擬主播、虛擬人物的形象。這背后的技術其實基于業(yè)界領先的深度神經(jīng)網(wǎng)絡技術,提供高度擬人、流暢自然的語音合成服務,可以讓應用、設備開口說話,更具個性。

我在百度大腦AI開放平臺找到了百度大腦AI開放平臺語音合成技術的體驗區(qū)。以度逍遙這個情感男聲為例測試了一句話:今年是五四運動一百周年。

這個男聲有著非常明顯的特點,非常舒服渾厚的京腔,不知道的人還以為是一個播音主持人在和自己說話。

可以說,百度機器學習模型的研究上取得了突破性成果,其生成的仿人類語音更加逼真自然,將仿人類語音與真實人類聲音之間的差異大大減小了。

2、表情唇動要豐富

人的表情,其實是由面部肌肉以及唇動共同組成的,不同人有不同肌肉動作。

以下面這張圖為例,人可能有千百種表情,不同人在表達喜悅、恐懼、得意、焦慮的時候,表情都不一樣。

真的把表情交到人類面前時,我們都不一定可以把不同表情做準確歸類。

但是機器可以做到啊?;诖罅康拿娌刻卣鞯臄?shù)據(jù)學習去做提取,機器可以把面部肌肉、唇部動作最細膩的表現(xiàn)都展開學習、歸納,然后從中總結,學習人類的表情特征。

在需要輸出的時候,再用深度學習做表情驅動,使得表情更加豐富,甚至連發(fā)色、年齡都可以自動生成。

百度大腦的技術邏輯和這個其實也基本大同小異。

百度大腦AI開放平臺上提到,百度大腦在檢測出人臉后,可對人臉進行分析,獲得眼、口、鼻輪廓等150個關鍵點定位,準確識別多種人臉屬性,如性別,年齡,表情等信息。這個技術還可適應大角度側臉,遮擋,模糊,表情變化等各種實際環(huán)境。

百度大腦把聲音、表情、嘴唇的這些素材經(jīng)過了數(shù)據(jù)采集、特征分析、模型訓練,用深度學習的一些核心算法和思想做了唇動技術,讓唇動、表情和語音更好的用不同的特征表示聯(lián)系在一起。

過去其他的AI主持人只是有一個語音庫,表情和唇動非常初級,百度等于是把三項技術全部都擬合在一起了,而且再通過AR技術輸出出來,比別的廠商想得更多、更細。

產品用在哪兒

你以為百度大腦的AI主持人只能用于這種晚會主持?

當然不止于此。它背后涉及的技術包括面部識別、語音合成、AR輸出等等。這些AI技術可以組合成不同的產品,開放給其他客戶使用,幫助行業(yè)客戶改善服務、提升效率。

事實上,依托于百度大腦的百度AR Lab(百度增強現(xiàn)實實驗室),就在提供AR技術、產品、服務一站式智能交互解決方案,業(yè)務已廣泛覆蓋營銷、娛樂、教育、文化等各個領域。

1、教育和閱讀類產品:讓課程和講解變得更生動

通過閱讀類APP閱讀小說或新聞時,如果使用語音合成技術為用戶提供多種發(fā)音人的朗讀功能,釋放雙手和雙眼,獲得更極致的閱讀體驗。

實際上,熊貓看書、快聽小說已經(jīng)在使用百度大腦這項技術。用戶可以直接用語音播放電子書中的內容。

教育類的客戶同樣可以引入這樣的AI主持人,在一些兒童故事機、智能機器人這類教育類設備或課程之中定制屬于自家產品的形象、聲音,讓課程變得更親切。

深圳一家名為AiMouse的智能鼠標廠商以及Kido兒童手表品牌都使用了百度這項技術。Kido通過運用百度語音識別和語音合成技術,優(yōu)化了機器人的語音交互體驗,讓兒童手表實現(xiàn)語音交互。這款手表的日活躍量也達到了百萬級別。

2、生活和服務類產品:讓服務交互效率得以提升

語音合成還可應用于打車軟件、餐飲叫號、排隊軟件等場景,通過語音合成進行訂單播報,讓用戶便捷獲得通知信息。面部識別則是可以展開顧客識別、訂單校對。

不管是語音合成還是面部識別,都天然適合服務業(yè)場景。一些酒店、飯店等服務業(yè)可以定制一些屬于自己的機器人,幫助顧客做客服。在訂單校驗的過程中則是可以用顧客的面部特征為基礎展開服務。

嘀嗒出行出租車業(yè)務的“聽單”以及順風車業(yè)務的“聽單功能+派單服務”中都用到了百度的語音合成技術。

從2017年10月開始接入百度語音合成SDK。隨著嘀嗒業(yè)務的增長,調用量每日都在攀升,日調用超過千萬次以上,而錯誤率幾乎為零。百度語音合成技術保證了核心派單功能的穩(wěn)定服務。

3、影視文娛產業(yè):節(jié)省動漫動畫行業(yè)的人力

影視、動漫行業(yè)未來效率也能因百度大腦這套AI技術得到很大提升。

過去動漫、影視劇行業(yè)為了給動畫人物唇形、表情,必須手動一點點調整,而且很看動畫師主觀的思考。

百度這一套技術輸出給動漫行業(yè)的話,直接機器生成就OK,動畫師后期修改也很方便。程序驅動以后,動畫人物語言的唇動連續(xù)性也是完全一樣的。不會出現(xiàn)在說同一個詞匯時出現(xiàn)不同唇動的現(xiàn)象。

影視劇、動漫產業(yè)的動畫師未來可以把更多精力放在更多有價值的工作上,這樣不僅可以節(jié)省人工成本,還縮短了工作時間。

當然,文中列舉的這些案例完全不能概括面部識別、語音合成、AR這些技術融合帶來的應用場景。

我列舉這些案例的意思是,你只有非常努力,才能看起來毫不費勁。

百度領軍“賽先生”

央視五四晚會上這個AI主持人表面上看起來只是在主持一檔晚會。實際上它所需要用到的AI技術底蘊深厚,放到各行各業(yè)可以有更大的實際效益。

這也正如美國軟件技術專家艾德·伯內特說過的一句話:

現(xiàn)在天上有三十一顆衛(wèi)星在地球上空環(huán)繞,不為別的,就為了告訴你便利店怎么走。

如果你只看到了手機地圖上的便利店要怎么走,你顯然低估了很多事情。

因為天上那三十一顆衛(wèi)星不僅僅在服務你,更在服務各行各業(yè)——那才是你沒看到的東西。

英國學者李約瑟(Joseph Needham)在編著的《中國科學技術史》中提出此問題:

盡管中國古代對人類科技發(fā)展做出重要貢獻,但為什么科學和工業(yè)革命沒有在近代中國發(fā)生?

作為享譽世界的文明古國,在技術上有過那么多自豪成就。明明自己發(fā)明了火藥,卻被八國聯(lián)軍炸掉了封建牌坊;明明發(fā)明了指南針,卻被英國的戰(zhàn)列艦找上門來。

100年前的五四運動就是探尋這個答案的過程。五四青年們因為國家積貧積弱,走上呼喚“德先生”和“賽先生”的道路。

可以說,德先生和賽先生,是推動中國社會前進的兩個車輪。

在今天,全世界范圍內同樣在展開一場圍繞著“賽先生”的競爭——未來20年,是AI的時代,AI就是當代“賽先生”。

百度為代表中國企業(yè)在AI領域已經(jīng)不遑多讓,多年以前呼吁的“賽先生”已經(jīng)不是短板。“賽先生”甚至正在成為今天中國走到世界技術之巔的重要基石。

以AI為代表的“賽先生”讓萬事萬物都處于精確計算之中,正如當代哲學家西閃《國家的計算》所說的:

在現(xiàn)實世界的“賭局”中,帕斯卡的上帝已經(jīng)隱退,取而代之的,是作為信仰的“未來”。它像一個永恒的獎杯,在時間的盡頭閃閃發(fā)光。計算則取代了程式化的行為訓練,演變成為一種新的思維習慣?!袄硇缘挠嬎恪币呀?jīng)成了是近現(xiàn)代的過程最主要的特征。

五四運動的倡導者陳獨秀如果看到中國科技企業(yè)把“賽先生”搞得這么強,怕是也要說一句,“你真秀!”

----------------------------------------------

作者 | 吳俊宇 公眾號 | 深幾度

作者系獨立撰稿人,微信號852405518

關注科技公司、互聯(lián)網(wǎng)現(xiàn)象的解讀

曾獲鈦媒體2015、2016、2018年度作者

新浪創(chuàng)事記2018年度十大作者

品途網(wǎng)2016年度十大作者

騰訊科技2015年度最具影響力自媒體

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-05-05
百度大腦AI主持人技術揭秘
文|吳俊宇今天是五四青年節(jié),提及青年節(jié),就不得不說“德先生”和“賽先生”。100年前的五四運動中,響徹著“只有德先生、賽先生可以救中國”的口號。

長按掃碼 閱讀全文