移動互聯網之后智能互聯網時代已然來臨。不過,究竟什么是人工智能?AlphaGo戰(zhàn)勝人類棋手除了可以作為談資之外其實與大多數人沒關系,用人工智能技術調度外賣配送員我們普通人也感受不到其威力。在我看來,人工智能技術最典型且最先普及的應該是語音——如果說人工智能是互聯網上的皇冠,那么,語音技術就是這顆皇冠上最璀璨的那顆明珠。
種種跡象表明,智能語音正在改變我們的生活或者生產方式:
在上海一家肯德基餐廳內,度秘可接收顧客的語音命令幫客人點餐;
Amazon Echo和Google Home為代表的智能音箱,正在成為家庭的新入口;
阿里云棲大會和天貓雙11晚會上,演講嘉賓的話被實時轉化為文字,準確率近100%;
錘子M1L發(fā)布時,訊飛語音輸入法成為這場發(fā)布會的最大亮點;
手機天貓的商品評論功能已經支持語音輸入,大幅提升了用戶的評論意愿;
……
由于更加自然、快速和簡單,語音正在逐步取代“打字”成為主流交互方式,各行各業(yè)都在思考如何利用語音技術,手機電視等硬件廠商加入語音將之當做賣點,O2O服務平臺加入語音搜索便于用戶下單,電商平臺加入語音評論功能降低互動門檻,售后服務加入語音降低客服壓力,企業(yè)借助于語音工具記錄會議內容……
語音技術大規(guī)模爆發(fā)
語音進入大眾視野已有許多年歷史,事實上,Siri早在2011年就已經發(fā)布,當時國內也有不少跟隨者,為什么5年之后的今天語音才進入爆發(fā)期呢?最關鍵的原因在于:
1、技術進入成熟可用階段。當識別率只有90%的時候,語音就會被吐槽為玩具,然而,隨著深度學習技術被引入語音之中,語音技術就實現了從90%到99%的跨越。百度有基于百度大腦深度學習技術的Deep-Speed技術,訊飛有“訊飛超腦”,搜狗也與清華大學聯合建立人工智能實驗室,人工智能驅動語音技術走向成熟,變得可用,是語音技術今天爆發(fā)的第一個背景。
2、4G網絡普及速度超預期。不論是Siri、度秘還是語音輸入法,要能準確、快速識別出語音的前提是終端要接入網絡,并且要高速網絡,4G網絡在最近兩三年的普及速度超過了所有人的預期,5G商用也越來越近了,高速的網絡環(huán)境給語音提供了便利的基礎設施。
3、大數據和云計算普及應用。人工智能算法生效的前提是對海量數據進行機器學習,同時要通過云端大規(guī)模集群進行并發(fā)式計算。語音技術需要對大量的語料進行計算,大數據和云計算在這幾年成為互聯網基礎設施,成為語音技術爆發(fā)的又一個前提。
4、語音應用場景大幅增加。這幾年,后移動互聯網時代迎來了幾波潮流:O2O、智能硬件(智能汽車、智能家居、智能可穿戴等等)還有互聯網+,這些場景給語音提供了大量的應用場景。
語音爆發(fā)在即,開發(fā)者并不具備研發(fā)語音底層技術的能力,但可以將巨頭開放的語音技術與自身業(yè)務緊密結合,成為語音技術的應用者。市面上有不少語音開放平臺,有的收費、有的免費,現在最普及的語音開放平臺,來自于百度。百度語音平臺在2013年11月正式開放,在當時我的看法是“百度語音開放可以成為推動這一市場蓬勃興起的催化劑”,現在看來這是對的。
百度語音開放平臺如何崛起?
11月22日,在百度語音開放平臺三周年大會上,百度首席科學家吳恩達介紹,百度語音開放之后,2013年每天的在線語音識別請求量是500萬,今天這個數據變?yōu)?.4億請求量;在線合成從2014年的1.2千萬到現在超過2億;開發(fā)者數量從2014年1萬增加到今天超過14萬開發(fā)者,百度的語音開發(fā)者生態(tài)浮出水面。
鑒于11月23日即今天下午是科大訊飛2016年度發(fā)布會,百度語音在11月22日前高調召開發(fā)布會,截胡之意十分明顯。百度語音開放平臺的玩法,讓我想起百度地圖與高德之爭:百度免費讓高德不得不跟進,最終實現了互聯網化??拼笥嶏w2009年成立,百度語音團隊在2012年才成立,作為后來者,百度語音憑什么能做成呢?
第一點,也是非常重要的一點,百度語音率先使用了深度學習技術,進而在語音技術上取得突破。這是吳恩達加盟百度之后著重做的第一件事情,基于深度學習的DeepSpeech2語音識別系統(tǒng)準確率達到了97%,這個成果被評為MIT評為2016年十大技術突破,同時,在噪音環(huán)境下的表現很好。在百度大腦被公布之后,訊飛才跟進成立“訊飛超腦”,深度學習技術是百度語音能夠做成的關鍵?,F在,百度正在語音情感合成、遠場語音交互、語音喚醒技術等領域發(fā)力,做深做細,強化技術壁壘。
第二點,百度在語義理解技術上優(yōu)勢明顯。語義理解不只是要求機器聽得到,還要聽得明白,甚至可以基于上下文對話。這需要自然語言處理技術的配合,去理解識別到的語音中的語義。百度是搜索引擎起家,在自然語言處理尤其是中文處理上優(yōu)勢明顯,再結合任何智能技術,在語音交互上有度秘表現比Siri、Google Allo更好,甚至支持多輪交互,在語音應用上有自然語言翻譯,這些都體現出百度在語義理解上的優(yōu)勢,百度語音開放平臺也支持50多個垂直領域的語義理解,支持人機多輪對話。
第三點,則是非常獨特的一點,百度不只是有語音開放技術,開發(fā)者往往會需要使用多種技術能力,一個App不能只有語音,可能還需要LBS位置能力,百度地圖是最大的開發(fā)者平臺;還有在人工智能上,百度提供語音合成技術、圖像識別技術、自然語言處理技術、用戶畫像技術以及機器學習技術的開放,這些可能也是開發(fā)者所看中的,這也是百度相對于只提供語音技術能力的平臺的優(yōu)勢。
第四點,百度所開放的不只是技術,還有用戶、數據和計算資源。許多開放平臺開放的是API,即技術能力,但開發(fā)者需要的不只是技術能力,互聯網巨頭都有自己的生態(tài),它們可以吸引開發(fā)者的原因就在于用戶、數據和計算資源,百度產品矩陣擁有數億用戶,其中不少用戶有語音習慣,還有就是用戶行為大數據以及云計算資源,這些都是開發(fā)者看重的。
語音大戰(zhàn)新的主戰(zhàn)場是什么?
不過,語音技術進入爆發(fā)期,還有許多應用空間,開發(fā)者有復雜多樣的需求,百度語音開放平臺將切下一塊蛋糕,但不會吃掉所有的。接下來,語音技術還有許多重點領域要克服,除了抗噪、口音兩大問題之外,語音接下來的關鍵競爭點在于:
1、語音喚醒技術。
我們通過“Hey Siri”“Ok Google”喚醒語音助手,這讓語音助手隨時待命,不過對移動設備來說有較高的功耗壓力(Google Home和Amazon Echo音箱一直插電,不用考慮功耗問題),還有就是喚醒準確率存在問題,要么手機聽不到,要么誤判。還有就是喚醒的語句固定、不能區(qū)分用戶身份,體驗不夠好。百度語音開放平臺三周年時選擇開放喚醒二期技術,功耗是友商的三分之一,喚醒準確率達95%,支持“茄子”啟動拍照這樣的自定義喚醒詞,相信之后還會引入聲紋識別技術區(qū)別身份。
2、遠場語音交互。
現在語音交互技術對人與設備之間的距離有要求,要“對著手機說”,這其實是很傻的,我們在生活中與人對話,可不會距離這么近。在家里我們要控制電視機,還得對著遙控板說。遠場語音交互技術解決的就是這個問題,它讓機器可以聽到幾米外的人說的話,挑戰(zhàn)也很大,有回音,有噪音,有衰減,百度已經自主研發(fā)了支持3-5米的遠場語音技術,這意味著之后我們可以睡覺時讓熱水器啟動,或者坐在沙發(fā)上直接對著電視發(fā)號施令了。
3、語音合成技術。
現在機器說話都很死板,我們很容易聽出來一段話是人還是機器說的。接下來語音合成技術的關鍵是,讓機器說話聲音更像真人,不只是“音色”接近真人,而是更有情感,抑揚頓挫、飽含深情。百度語音開放平臺基于大數據和深度學習建模方式,在情感合成上有較好的表現,語音開放平臺增加的一個新能力就是語音合成技術。
4、長語音識別。
輸入一大段話的識別,過去對機器來說很有難度,涉及到斷句等諸多方面,現在輸入法,包括大會上演講者的聲音識別都有不錯的表現,這表明長語音識別技術正趨于成熟。不過,要實現同聲傳譯、用語音發(fā)郵件、寫文章,甚至進行會議紀要,短期內還是很困難的,李彥宏、王小川等大佬們的說法也是“未來會取代同聲傳譯”。當然,隨著長語音識別技術的成熟,接下來語音還有更多應用場景,比如智能客服、內容紀要等等,取代同聲傳譯不會這么快,但是最終一定會。
5、語義理解技術。
語義理解能力進一步提升,中文博大精深,很多話文字一樣,不同場景表達意思不一樣,語音技術要跟場景結合去理解語義,還要結合上下文。甚至要跟別的智能技術結合去理解,比如用戶可能會指著一個物體說“請問它的英文怎么說”,只有語音技術就解決不了這樣的交互,還得有圖像識別技術;再比如用戶會問“我們這里的天氣怎么樣”,這需要LBS技術的配合??傊趫鼍?、結合人工智能綜合技術的語義理解,可能會是語音技術接下來攻克的重點。
每個行業(yè)都在利用人工智能技術,而人工智能里面最先普及的,必然會是語音技術。隨著IoT時代到來,越來越多的聯網設備會遍布在我們周圍,手機、電視、電燈、汽車…都會具備語音交互能力,隨時待命,聆聽我們的聲音并做出響應。因為語音技術的成熟,我們與這個世界對話將越來越多,我們的雙手將被解放,我們的世界將更加美好,未來已來。
- 世間將再無松下電視:松下官宣解散家電子公司并徹底放棄電視機業(yè)務
- 雅迪集團與南都電源簽署協議:攜手共繪固態(tài)電池未來藍圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。