制造“空間魔術”:為未來取暖的騰訊多媒體實驗室

對80、90后包括00后來說,人生中很多“見證奇跡的時刻”,都是與騰訊旗下一款款國民級產(chǎn)品共同度過的。比如第一次向千里之外的網(wǎng)友發(fā)出那句“你好嗎”,感受到了天涯若比鄰的真正含義;又像是第一次用微視拍一條小視頻,看到貼圖與自己的臉龐完美貼合,體會到數(shù)字世界與現(xiàn)實世界是怎樣連接的奇妙。

技術之于現(xiàn)實世界魔術一般的驚人改變,很多時候都是這樣,以一款產(chǎn)品為契機,去改變一個用戶、一個群體乃至一代人的生活。

而魔術制造者從不休息。2019年12月25日,云視頻會議產(chǎn)品“騰訊會議”正式發(fā)布,在背后為其提供支持的便是神秘的騰訊多媒體實驗室。

今天我們不妨從“騰訊會議”的魔術出發(fā),去探尋其背后的魔術工廠。

遠程會議:移動辦公的最大短板

說起遠程會議,估計我們的各位“社畜”讀者已經(jīng)非常熟悉了。在分布式辦公、移動辦公非常普遍的今天,隨時打開微信群語音交流工作,或是開啟QQ群視頻來一場遠程會議,都是很普遍的事。

但遠程會議的體驗,過去是大家有目共睹的差——通話延遲十分常見,更讓人煩惱的是如果誰所處的環(huán)境有噪聲,便會影響所有人的體驗。尤其很多筆記本電腦的收音設備都距離鍵盤很近,在做會議記錄時,往往需要暫時關閉麥克風才能保持不打擾他人。像挪動水杯、一兩聲咳嗽這樣在面對面會議中很常見情況,在遠程通話中都會變成干擾會議的噪音。更別提視頻會議時,直面攝像頭的尷尬了。

而這種情況并非無法解決。很多軟硬件廠商也會選擇用降噪算法、壓縮算法等方式來優(yōu)化網(wǎng)絡通話體驗。但在會議場景中,卻很難找到相對理想的統(tǒng)一解決方案。尤其從鍵盤打字這種近音干擾噪音如何優(yōu)化,到多人通話的低時延保持,再到視頻流與音頻流結合的優(yōu)化,往往都是移動會議場景才會面對問題。如果沒有針對性的解決措施,用戶很難找到替代方案。

而騰訊會議這款產(chǎn)品,就是針對這一場景的驚人“空間魔術”。

空間魔術:騰訊多媒體實驗室如何把同事“變”到你身邊?

騰訊會議的魔術可以被分為四個部分:音畫、聯(lián)通、評估與網(wǎng)絡。

在音畫方面,騰訊多媒體實驗室不僅提供了視頻美顏算法,還特地收錄了車站噪聲、風雨噪聲等常見的環(huán)境噪聲,以及咳嗽聲、鍵盤聲、放水杯聲等常見的會議噪聲。通過定點降噪處理,剝離噪音還原清晰人聲。同時騰訊多媒體實驗室還打通了VoIP、PSTN等多種語音通話技術,在盡可能廣泛的帶寬和采樣率中應用音頻超分算法,通過技術處理提升語音品質(zhì)。不僅如此,多媒體實驗室還推出了真實網(wǎng)絡場景的語音質(zhì)量運維和保障方案。在提供良好的通話效果之外,也通過這一方案幫助用戶更好地對雜音、噪音進行定位,為通話效果提供保障。

在音畫能力和聯(lián)通能力背后,重要的支撐力就是評估能力。大多數(shù)時候遠程會議通話的清晰與否,都只能由用戶自己主觀判斷。這對會議通話的產(chǎn)業(yè)化發(fā)展是非常不利的。而騰訊多媒體實驗室則擁有專業(yè)的音視頻實驗室和測試設備,利用上百個符合ITU/3GPP/AVS等國內(nèi)外標準的指標對通話質(zhì)量進行評估。多媒體實驗室自己也建立了大規(guī)模音視頻主觀質(zhì)量數(shù)據(jù)庫,在此基礎之上研發(fā)了可以部署到業(yè)務線中的評估算法。這樣一來不僅在研發(fā)時可以有衡量標準,也可以監(jiān)控用戶的體驗質(zhì)量。最后,針對多方通話可能面對的各方網(wǎng)絡連接狀態(tài)不同的情況,騰訊多媒體實驗室還應用了智能網(wǎng)絡探測算法,覆蓋多種網(wǎng)絡類型,在復雜的網(wǎng)絡環(huán)境之下提供優(yōu)質(zhì)的通話服務。

除此之外,騰訊會議還提供一鍵錄音、云端加密存儲等功能,讓產(chǎn)品形態(tài)更加完整,囊括會議進行和會議記錄保存的整個周期。

如此一來,即使身處嘈雜的街邊,用戶也能享受到如同身處封閉會議間式的通話體驗??萍季腿缤兡g一般,讓身處天涯海角的人們在同一“空間”內(nèi)無礙溝通。

魔術師的進階之路

從反復出現(xiàn)的名字就能看到,在空間魔術背后提供動能的“魔術師”,就是騰訊多媒體實驗室。雖然這一名字較為新鮮,但騰訊多媒體實驗室的魔術師進階之路,卻從多年前就開始了。

想想開頭提到的,很多人小時候第一次“見證奇跡的時刻”就是通過QQ與遠方的親人朋友聊天。但很快這種溝通模式就從文字進化成了語音和視頻,也就是說,從很久以前,騰訊就已經(jīng)在處理語音視頻會話的技術問題了。

到了2011年左右,當移動端產(chǎn)品逐漸普及,QQ語音通話這一體驗和電話通話十分接近的功能迎來了更廣闊的需求。于是QQ成立了音視頻中心,開始著手解決語音視頻功能移動化的問題。尤其是弱網(wǎng)的適應性、以及移動終端的豐富類型,都是在提供優(yōu)質(zhì)影音服務之前,必須要解決的問題。

從這一時刻起,騰訊多媒體實驗室的技術基地開始加速累積。但也正因一開始為解決QQ產(chǎn)品需求而生,使得騰訊多媒體實驗室的技術與QQ業(yè)務深度耦合。但到了2014年,隨著硬件能力的提升和普及,語音視頻服務開始出現(xiàn)在更多的產(chǎn)品之中——K歌、直播、游戲……尤其像直播、K歌等源自模式創(chuàng)新且注重運營的產(chǎn)品,往往都是業(yè)務比技術優(yōu)化更先上馬。此時這些產(chǎn)品所向往的,正是已經(jīng)在應用場景取得成果并且能夠盡快與自身業(yè)務場景結合的技術。騰訊自己也通過布局投資和成立新業(yè)務開始涉足這些領域,此時急需的,是技術與產(chǎn)品之間的解耦,完善SDK使技術可以復用,在更廣泛的空間中發(fā)揮價值。

于是在2016年騰訊音視頻實驗室正式獨立,最終成長為今天我們所看到的騰訊多媒體實驗室。從最初的成員數(shù)只有個位數(shù),到現(xiàn)在全球超過100多人的團隊,強大的人才儲備結合接近二十年的累積,還有無數(shù)次來自真實場景的技術煉金,一切都為這位魔術師累積了充足的工具箱。

從魔術師,到制造魔術的工廠

從騰訊會議這一款產(chǎn)品中,我們也能窺見一二。

除了能夠提供聲音降噪、音頻超分等語音方面的算法之外,在騰訊會議這款產(chǎn)品中還能見到騰訊多媒體實驗室強大的編解碼能力。

例如在遠程會議常見的屏幕分享場景中,常常會出現(xiàn)畫面卡頓、文字等細節(jié)內(nèi)容模糊的情況。騰訊多媒體實驗室針對屏幕分享場景做了大量優(yōu)化。在編碼方面推出了專門針對屏幕內(nèi)容的屏幕內(nèi)容編碼器TSE,并在其中加入屏幕內(nèi)容編碼工具,以提升編碼效率。至于文字模糊問題,騰訊多媒體實驗室則采用了YUV444編碼,很好地解決了因為色度分量下采樣導致的質(zhì)量損失。

在實時音視頻能力上,騰訊實驗室除了有豐富的場景經(jīng)驗外,還對于業(yè)界先進的學術成果保持持續(xù)追蹤,就像在擁塞控制這一常見需求上,騰訊實驗室就調(diào)研了各種學術界和業(yè)界最新的擁塞控制算法,結合自身累積的場景經(jīng)驗,提出了新的實時擁塞控制算法,在不同網(wǎng)絡場景下都能迅速給出可靠的帶寬預測,以便運營方即時做出各種準備。

不僅如此,騰訊多媒體實驗室還在音視頻質(zhì)量評估、互動沉浸式媒體方面有著強大的累積。能夠?qū)崿F(xiàn)端到端的音視頻內(nèi)容質(zhì)量評估的客觀音視頻質(zhì)量評估算法,以及全新的互動式媒體交互手段,都是騰訊多媒體實驗室已經(jīng)開始向產(chǎn)業(yè)世界所輸出的能力。

魔術師的帽子里,有抽不盡的彩帶、飛翔的白鴿和跳躍的兔子。一切都是為讓整個世界增添更多魔法色彩而服務。但一位魔術師,所面對往往只是一群人、一個劇場、一條街道。

在這里,我們就可以重新審視騰訊多媒體實驗室的布局與籌劃。

騰訊強大的產(chǎn)品基因,以及優(yōu)圖、AI Lab、安全實驗室等其他部門提供的豐富技術能力,最后加上騰訊云這一輸出口,可以讓騰訊多媒體實驗室的技術擁有更妥帖的落地能力。目前除了在騰訊會議中外,全民K歌、斗魚直播、NOW直播等產(chǎn)品中,也能見到騰訊多媒體實驗室所釋放的“空間魔術”。在接受采訪時,騰訊多媒體實驗室相關負責人也表示,未來騰訊多媒體實驗室的技術,將會盡可能地開放給社會,讓更多產(chǎn)業(yè)參與者能夠在此基礎之上優(yōu)化自身產(chǎn)品。

這樣看來,與其說騰訊多媒體實驗室是某一項產(chǎn)品背后的魔術師,不如說這是一座“魔術工廠”,不僅用一只帽子里的兔子驚艷他人,而是源源不斷批量生產(chǎn)“魔法”,讓世界與狀態(tài)理想接軌——讓更流暢無卡頓的直播,拉近陌生人之間的距離?;蚴且皇谉o縫銜接的遠程合唱,讓遠在天邊的家人也能感受到一起K歌的快樂。

對于成長于互聯(lián)網(wǎng)和公寓樓中的千禧一代來說,遷徙、分離、孤獨似乎成了他們生活的常態(tài)。但一款能讓他們隨時聯(lián)系到家人朋友的通訊軟件,一種能讓他們相隔千里也有對坐而談感受的技術,幾乎是生活的必需品。用技術消弭物理空間的阻隔,是這場空間魔術的最大魅力,也是騰訊一直在做的。而這一魔術顯然不會僅僅被騰訊擁有,而是通過云端撒向世界,如同一場溫暖的雪,為即將到來的未來取暖。

免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2020-01-13
制造“空間魔術”:為未來取暖的騰訊多媒體實驗室
尤其從鍵盤打字這種近音干擾噪音如何優(yōu)化,到多人通話的低時延保持,再到視頻流與音頻流結合的優(yōu)化,往往都是移動會議場景才會面對問題。

長按掃碼 閱讀全文