阿里云通義智能語音技術助力聽力熊打造領先的AI智能終端——用大模型陪伴青少年學習成長|看見新力量NO.139

在層出不窮的AI硬件爆發(fā)的當下,智能教育硬件市場也迎來新的機遇,經歷了一系列從功能創(chuàng)新、內容更新到用戶需求挖掘的變革。

隨著市場加速“內卷”,大而全的學習機、復讀機類產品越來越多,市場規(guī)模增速趨緩的同時,更多細分場景也在被逐漸發(fā)掘。從傳統(tǒng)的復讀機,到AI時代的“聽力機”,有這樣一家企業(yè),探索出了一種新的品類,定義了一種新的需求,在青少年智能終端賽道,取得了“第一”的地位。 作為智能聽力機品類的開創(chuàng)者與領導品牌,聽力熊擁有豐富的產品線,包括智能聽力機、閱讀本和單詞寶等。

其中,新一代聽力機“聽力熊”T6,搭載了聽力熊自研的TeeniGPT——這是全球首款面向青少年的通用大模型應用,該模型具備語音交互、語音生成和語義理解等功能,為青少年用戶帶來更有趣的智能體驗。

僅兩年時間,聽力熊已經成為了聽力機品類頭部企業(yè),打造出一個以AI技術為核心,線上線下全渠道覆蓋的新科技品牌。 目前,聽力熊的用戶累計已超100萬,且聽力熊的AI大模型應用日均請求達100萬次,日均tokens消耗達10億,在青少年群體中廣受喜愛。

在聽力熊業(yè)務快速增長的過程中,阿里云為聽力熊提供了高性價比的算力與云服務解決方案,助其降低了運營成本,并基于通義實驗室智能語音交互產品和生成式語音大模型CosyVoice的能力,提供低延遲的語音互動、個性化聲音的復刻以及生成豐富海量的有聲書,讓學生的熏聽更加有趣有料,這些技術提升了聽力熊的智能化水平和青少年用戶體驗,加速了其產品化進程,推動了面向青少年的專屬大模型迭代。

本期「看見新力量」欄目與聽力熊創(chuàng)始人兼CEO夏崇彥進行對話,一起探討關于AI硬件在青少年教育上的創(chuàng)新和洞見。

1731645084609803.png

01:挖掘教育硬件細分場景,開創(chuàng)“聽力機”智能化新物種

2021年,聽力熊創(chuàng)立之初,團隊將其目標定位為面向未來的、青少年專屬的便攜式AI終端,并以AI能力和創(chuàng)新的交互體驗作為切入點,推出了AI聽力機產品。2022年,聽力熊堅持為青少年提供正版的優(yōu)質內容,與新東方、喜馬拉雅等內容平臺展開合作,讓更多好內容在產品中落地。2023年8月,聽力熊推出青少年通用大模型應用“TeeniGPT”。在其助力下,聽力熊T6率先實現(xiàn)了中、英文雙語不同場景下的深度應用。

談及對目標用戶的洞察,夏崇彥講述創(chuàng)業(yè)過程中的一段摸索。2015-2017年,團隊將多模態(tài)AI交互技術在全年齡段全場景進行了測試。用戶數(shù)據結果顯示,青少年群體對于新技術以及新交互體驗的包容性遠遠高于成年人:出于對效率的要求,成年人對尚不完善的AI技術的包容度很低,但對于青少年群體,一個足夠有趣的交互體驗就能打動他們,他們也對AI技術有著更大的好奇心??吹竭@個機遇的夏崇彥,立即展開了產品化的探索。

夏崇彥認為,對于成長于技術爆發(fā)時期的“AI原生一代”,一款青少年專屬的大模型終端是不可或缺的。青少年群體如何利用其碎片化時間成為了夏崇彥團隊的關注點,他們從便攜性、安全健康的封閉生態(tài)需求出發(fā),為聽力熊的首款產品找到了最適宜的出發(fā)點——復讀機,并利用AI技術和創(chuàng)新產品體驗將其升級為“智能聽力機”。聽力機巧妙規(guī)避了傳統(tǒng)電子屏幕“傷眼”的弊端,操作簡單、易于攜帶,青少年用戶的反饋良好加上專業(yè)化的內容體系,很快也取得了家長們的信任。

作為一款教育硬件產品,聽力機搭載的內容質量,是決定產品體驗的重中之重。夏崇彥指出,傳統(tǒng)復讀機市場無法做到持續(xù)的破圈和高速增長,很大一部分原因是盜版內容的泛濫。團隊深知這無法撐起一個品牌長期發(fā)展的基礎,于是在創(chuàng)業(yè)初期,就十分重視與優(yōu)質內容供給方的合作。除了喜馬拉雅、口袋故事等內容平臺,團隊也將橄欖枝伸向了廣大出版機構——不僅讓廣大用戶接觸到了高質量的紙質出版物,傳統(tǒng)出版機構也可以以聽力熊為渠道,擴大內容的流量與覆蓋面,形成了雙贏的局面。

1731645090654258.png

在智能化方面,公司高度重視對AI的應用,基于和阿里云長期以來的合作基礎和信任,在對比了多家模型的效果后,聽力熊選擇了通義團隊研發(fā)的技術產品,從語音識別、語音合成、LLM模型到語音翻譯,并將這些底層技術融入了產品的方方面面,持續(xù)改善用戶體驗,使產品使用更加流暢,也積累了大量的實踐成果。

得益于對用戶的使用理解和場景挖掘,聽力熊在市場上取得了積極的用戶反饋。在暑假期間,聽力機上線了一項AI角色互動功能,雖然沒有進行大范圍推廣,但在青少年用戶們自發(fā)的探索下,仍然實現(xiàn)了30%的首日打開率。在那一個月,聽力機的調用量激增40倍,日均調用量達10億tokens。截至目前,聽力熊的用戶規(guī)模已經超過一百萬,青少年日均使用時長超3小時,遠超市面上的同類產品。

02:牽手通義智能語音,加速商業(yè)化與產品化進程

過去幾年,由于電商領域的激烈競爭與流量格局的變化,也給聽力熊銷售的穩(wěn)定性帶來了挑戰(zhàn),“雙減”政策的出臺,更增添了外部環(huán)境的壓力。在復雜的市場環(huán)境下,聽力熊的商業(yè)化進程依然在行業(yè)中“一馬當先”。在這方面,夏崇彥也分享了團隊的經驗:“我覺得一個創(chuàng)業(yè)公司,我們需要追求商業(yè)化和技術的平衡成長。因為在我過去的創(chuàng)業(yè)過程中,往往單純追求技術領先。很多產品和功能其實不一定能獲得市場的認可,商業(yè)化是一個必須要面對的現(xiàn)實的問題。”

夏崇彥提出,團隊在研發(fā)產品的初期,就聚焦于技術如何改善產品體驗,如何與用戶的需求場景相結合,這也是公司在商業(yè)化過程中考慮的重點。

AI大模型及云產品的技術能力與效率,關乎著聽力熊絕大多數(shù)的產品體驗。早期,聽力熊通過購買英偉達A100算力卡,部署并微調開源模型的形式,實現(xiàn)對成本和效果的兼顧,但隨著用戶增長高頻使用帶來的成本增加,使得運營難以持續(xù)。在公司產品接入阿里云后,阿里云為聽力熊提供了更高性價比的解決方案,特別是今年,阿里云多項云產品和AI產品及算力等成本大幅下降,使得團隊的產品化進程及效率進一步加快。

此外,阿里云在云服務和AI領域具備強大的性能與豐富的經驗,聽力熊的核心產品背后,包括在線音頻、云存儲與CDN等,均在阿里云進行部署和運營;而在模型能力方面,通義的語音語義識別、分析理解以及合成語音等場景下,均表現(xiàn)了出色的性能,實現(xiàn)了高水平的準確度、擬人化與流暢度。

相較于傳統(tǒng)小模型的語音合成,通義CosyVoice大模型語音合成能夠根據它對上下文的理解,洞悉文本中隱含的情緒以及角色身份等信息,從而給出更有表現(xiàn)力和自然韻律的表達。在CosyVoice中,語義和韻律部分使用大模型進行建模,并且在海量的多門語言、多樣情感數(shù)據上進行訓練,形成生成式語音大模型的基座,使得CosyVoice具備很強的遷移能力,即使原聲僅有1-3句話,也能復刻這個音色,這個易用好玩的功能在聽力熊上一經上線,就受到了青少年用戶的熱情試用。

1731645096840983.png

“阿里云是一家能夠給我們安全感的云服務廠家,不管是技術實力,還是產品穩(wěn)定性,還有服務響應的及時性,都能很好的滿足公司經營與發(fā)展的需求”,夏崇彥如此評價。在AI模型面向青少年群體的解決方案調優(yōu)過程中,為了符合這一人群的認知能力和表達習慣,同時實現(xiàn)對不良內容的過濾,聽力熊與通義技術團隊展開了深度的交流和合作,共同開發(fā)適宜于青少年的大模型,在這個過程中,阿里云和通義團隊為我們提供了非常好的解決方案與快速的響應能力。

03:陪伴“一代人”成長,做好“一代人”的大模型終端

目前,聽力熊已在北京、深圳等城市設立公司業(yè)務,未來公司也會計劃在杭州設立大模型應用研發(fā)中心,圍繞AI大模型的應用場景進行智能終端的研發(fā),不斷提升用戶的產品體驗與Agent的效能。

已經擁有百萬用戶的聽力熊并不滿足于當前的成就,而是將目光放在了更遠的未來,基于AI技術不斷地進步,致力于從學習到生活,從認知到自我實現(xiàn),全方位地服務于青少年成長過程中的各類需求。

聽力熊創(chuàng)始人兼CEO夏崇彥認為,在可以看得見的未來,AI終端的服務交付形式將發(fā)生變化,從“人找服務&設備”到“服務&設備找人”的轉變,從“理解用戶需求”到“提前解決用戶需求”,通過 AI + 終端應用的創(chuàng)新模式,實現(xiàn)從基于用戶指令的傳統(tǒng)應用到基于用戶潛在意圖主動服務的根本性轉變,徹底重塑跨端體驗。未來AI產品的服務會深入到用戶的需求和體驗,企業(yè)也需要為用戶持續(xù)提供更個性化的服務,才可以更長久地獲得用戶的信任。

基于AI終端對青少年群體學習成長陪伴的長期主義理念,聽力熊致力于打造一代人的AI大模型終端設備,陪伴一代人的成長。通過提供長期的陪伴和個性化服務,從教育學習場景逐步擴展到更多元的領域,實現(xiàn)品牌與用戶的共同成長。

超級應用的背后,離不開強大的技術支持,AI時代對基礎設施的性能、效率提出了更高的要求。2024云棲大會現(xiàn)場展示了阿里云全系列產品家族面向AI的升級:最新上線的磐久AI服務器,并提供AI算法預測GPU故障,準確率達92%;為AI設計的高性能網絡架構HPN7.0,可穩(wěn)定連接超過10萬個GPU ,模型端到端訓練性能提升10%以上;人工智能平臺PAI,已實現(xiàn)萬卡級別的訓練推理一體化彈性調度,AI算力有效利用率超90%。在模型層,通義實驗室也持續(xù)飽和式投入,幾乎保持以月為周期迭代基礎模型。云棲大會現(xiàn)場阿里云宣布通義旗艦模型Qwen-Max全方位升級,性能接近GPT-4o,同時還發(fā)布了開源模型Qwen2.5系列,成為僅次于美國Llama的世界級模型群。

同時,據IDC發(fā)布《中國人工智能公有云服務市場份額2023:大模型重塑云服務》報告中,阿里云智能語音公有云服務市場份額35.6%,排名第一。這是繼2019年后,阿里語音AI市場份額連續(xù)五年保持首位。

“作為青少年用戶學習交互的入口,未來很期待能夠與阿里云、通義實驗室更深入的合作,將AI技術與更廣泛的場景結合起來,更好地滿足青少年成長過程中的需求”,夏崇彥表示。

據測算,到2025年,我國的教育智能硬件市場規(guī)模將超過1000億元人民幣,廣闊的市場必將帶動學習機企業(yè)進行不斷地創(chuàng)新和迭代。同時伴隨著大模型推理及多模態(tài)能力的持續(xù)提升、端側AI的突破及算力成本的下降,將推動AI+智能終端空間進一步打開。聽力熊將會伴隨青少年在學習和成長的道路上,探索智能化的無限可能。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )