夸克新入口:重構(gòu)AI“視界觀”,望見阿里AI新版圖

互聯(lián)網(wǎng)大廠每年會更新無數(shù)個產(chǎn)品與功能迭代,有一些是追風(fēng)口的熱點,而有一些會被時間證明背后更深遠的價值。

舉個例子,盡管市面上不少AI應(yīng)用都具備拍照識圖等多模態(tài)功能,但大多數(shù)產(chǎn)品仍停留在“識別-展示信息”的淺層交互階段。

夸克于近期上線了“拍照問夸克”,基于通義與夸克的多模態(tài)能力,AI不僅能看,還能理解物理世界并采取行動,調(diào)用對應(yīng)的智能體來完成后續(xù)服務(wù),實現(xiàn)了從“看見物理世界”到“理解并行動”的質(zhì)變。

“拍照問夸克”功能,讓搜索第一次從視覺層面,實現(xiàn)了從獲取物理信息到解決問題的閉環(huán)。也意味著,夸克作為AI超級框,可以“一框解讀物理世界”。

當前,AI超級應(yīng)用將各家技術(shù)能力轉(zhuǎn)化為用戶可感知的消費級產(chǎn)品,成為這一輪大模型技術(shù)浪潮中的風(fēng)口,也是互聯(lián)網(wǎng)巨頭們都在搶奪的入口。阿里將“AI原生應(yīng)用”列為未來三年的核心投入方向?!芭恼諉柨淇恕辈粌H讓夸克打開了數(shù)字世界與物理世界的觸點,也進一步打開了阿里AI To C業(yè)務(wù)的想象空間。

所以,這一功能的上線,值得放在更加縱深的阿里AI戰(zhàn)略中來解讀。我們首先要解答的問題是,夸克究竟對AI相機做了什么?

從交互體驗來看,圖像搜索更適合用來與現(xiàn)實物理世界進行交互。相比文字搜索,圖像表達的信息更豐富,可以減少用戶語言表達的誤差,更真實地反映物理世界的原貌,搜得更精準;圖像交互也更快捷,現(xiàn)實場景中很多信息是突發(fā)的,比如臨時需要識別陌生植物,旅游時路過一座有趣的建筑,這時往往來不及轉(zhuǎn)換成文字描述,抬手一拍,搜起來更方便。

所以,滿足用戶探索物理世界的需求,AI搜索必須看清、看懂物理世界。但透過搜索引擎,探索豐富的物理世界,為什么一直沒能實現(xiàn)?

原因是傳統(tǒng)搜索,眼(視覺感知)、腦(圖像理解推理決策)、手(執(zhí)行服務(wù))的脫節(jié):

看不全。文本搜索已經(jīng)成熟,但多模態(tài)搜索還在發(fā)展中。早在2001年,谷歌就發(fā)布過圖像搜索引擎。但AI傳統(tǒng)方法受限于文本元數(shù)據(jù),ImageNet數(shù)據(jù)集僅含1000類物體,遠未覆蓋現(xiàn)實場景的復(fù)雜性,導(dǎo)致檢索效果差。移動應(yīng)用孤島問題,各平臺數(shù)據(jù)不互通,跨平臺整合不足,搜索效果仍然受限。

看不懂。用戶的搜索意圖有模糊性,NLP模型已經(jīng)可以較好地理解意圖和智能匹配,但很多基座大模型在跨模態(tài)理解上仍有局限,一旦涉及圖片等多模態(tài)交互,無法從圖片中準確理解用戶意圖,檢索準確性不足,十分依賴用戶的提示詞,普通用戶難以掌握,又進一步限制了多模態(tài)功能的使用意愿和頻率。

動不了。夸克AI相機產(chǎn)品經(jīng)理認為,“當用戶面向一個客觀物理世界,既想讓你告訴他這是什么,當然是什么背后有一些原因原理、趨勢判斷等,還有一些是面向面前畫面或者已有的自己圖像里相冊的內(nèi)容,希望進行一些處理”。但傳統(tǒng)搜索止步于單向信息輸出,無法觸發(fā)場景化服務(wù),缺乏行動能力。

進入大模型時代,許多應(yīng)用或多或少都上線了AI拍照能力,但大多是碎片化場景,或者垂域場景(如購物、美顏修圖、植物識別),通用全能的一體化產(chǎn)品幾乎沒有。直到“拍照問夸克”的上線。

“拍照問夸克”以幾乎“滿配”的AI能力,“眼腦手”的聯(lián)動,賦予了搜索全新的“視界觀”。

夸克整體的定位是AI全能助手,AI超級框之前先解決了文本檢索的難題,“拍照問夸克”AI拍照功能的上線,則有望補齊傳統(tǒng)搜索“看不全、看不懂、動不了”的短板,為用戶打開物理世界的更大想象力。

夸克是如何提高AI搜索的“視力”的?AI相機的眼、通義基模+夸克后訓(xùn)練的腦、智能體的手,整合起來,重新打造圖像搜索。

首先,教AI看圖,準確告訴用戶這個東西“是什么”。夸克在做搜索引擎過程當中積累了大量的專業(yè)圖片數(shù)據(jù)庫,用戶用圖片發(fā)起需求的時候,夸克能夠快速去調(diào)取數(shù)據(jù)庫進行匹配,精準回答給用戶這是什么。當前,夸克的各類實體識別幾乎做到了市場的最好水平。

接下來,教AI理解圖片,理解用戶“為什么問”。基于多模態(tài)視覺理解能力與深度思考的復(fù)雜推理能力,相當于調(diào)動大模型的“大腦”去思索視覺信息,自動識別用戶提問意圖,先理解用戶想干什么、這道題是什么,理解完之后再去檢索,想一些對應(yīng)的解決思路。一些用戶“沒見過、說不清、問不出口”的問題(如外語標志、沒見過的植物),也能秒懂用戶需求。同時,“拍照問夸克”還支持多輪圖片對話、以圖追問和深度對話,幫用戶解析復(fù)雜問題。

然后,讓智能體動起來,提供“下一步怎么辦”的行動方案。用戶面向一個客觀物理世界,既想讓你告訴他這是什么,后續(xù)也關(guān)聯(lián)著下一步行動,比如希望進行一些圖片處理?!皠幽X”分析完用戶的意圖,夸克還聚合多智能體能力,采取行動,一個入口就可以完成掃描、修圖、編輯、翻譯、找圖等的高效處理,實現(xiàn)解題、健康問題解讀、AI PPT、創(chuàng)作、生圖等多樣化創(chuàng)作需求。

眼(感知)腦(推理)手(智能體)的聯(lián)動,大幅提升了多模態(tài)搜索的產(chǎn)品體驗。“拍照問夸克”讓搜索從單一模態(tài)到多模態(tài),提升了視覺搜索處理復(fù)雜查詢的能力,可能成為行業(yè)的新標準。

當AI有了“視界觀”,多模態(tài)搜索融入“AI超級框”之后,夸克AI產(chǎn)品化范式的又一次成功自證。所以我們也很好奇,為什么夸克會一次又一次打造出爆款A(yù)I原生應(yīng)用?夸克做AI產(chǎn)品的思路究竟是怎樣的?

從這兩個爆款A(yù)I功能來看,夸克做AI具備幾個特點:

一是以前的基礎(chǔ)。夸克憑借極簡、科技感在搜索領(lǐng)域快速占據(jù)一席之地,成為2億人都在用的AI應(yīng)用,自身在AI產(chǎn)品化上的積累,鍛煉出了產(chǎn)品感覺和技術(shù)積累,這為其在產(chǎn)品中融入大模型的最新能力如多模態(tài),打好了基礎(chǔ)。

二是當下的位置。2025年,夸克升級為阿里AI旗艦應(yīng)用,戰(zhàn)略地位進一步提升,承擔(dān)起打通阿里內(nèi)部優(yōu)勢能力與資源的重任,可以聚合模型(通義)、應(yīng)用(淘寶)等各個渠道的優(yōu)勢資源,打造更加完整的用戶體驗。

三是始終在線的戰(zhàn)斗力。再好的基礎(chǔ)和資源,都要靠行動來發(fā)揮出最大效果。公允地說,夸克的創(chuàng)新競爭力是業(yè)內(nèi)首屈一指的,比如去年第一時間整合大模型能力,把AI搜索融入夸克高考等功能。敏銳的需求洞察,快速反應(yīng)不斷迭代,夸克的AI產(chǎn)品化在這一年多里進展飛快,成為行業(yè)標桿。

值得一提的是,阿里2024年明確AI To C(AI to Consumer)業(yè)務(wù),其中夸克其中的代表性AI應(yīng)用,是C端超級入口。由此可以推斷,夸克未來集中資源的能力進一步加強,其AI能力未來或?qū)⒋钶d到智能消費硬件(如AI眼鏡)中,進一步打通物理世界入口。

從這個角度說,“拍照問夸克”多模態(tài)搜索功能的上線,只是夸克的一小步,卻進一步證明了夸克AI產(chǎn)品范式的有效性,指向了更寬廣的未來。

承載著阿里AI旗艦應(yīng)用的定位,夸克的產(chǎn)品化能力,對業(yè)務(wù)估值和市場競爭的重要性有多大,值得我們仔細評估。

具體來看,“拍照問夸克”功能的上線,至少對阿里AI to C業(yè)務(wù)帶來幾重影響。

首先,多模態(tài)落地搜索的實際效果、整合速度,是阿里AI能力的佐證。AI相機作為多模態(tài)入口已是標配,但夸克上線即滿配,說明其技術(shù)整合能力強,通過通義基模+后訓(xùn)練,使得功能上線即具備高成熟度,直接滿足用戶多樣需求,減少迭代周期,快速占領(lǐng)市場。

這無疑是阿里通義大模型為應(yīng)用賦能的有力佐證。

此外,夸克結(jié)合其已有的AI能力,如多模態(tài)推理、圖像生成等,讓用戶通過拍照直接獲取信息或服務(wù),比如掃描物體識別、文檔處理等,增強實用性,進而提高用戶粘性和活躍度。

從數(shù)據(jù)來看,夸克00后用戶占比超50%,該群體對物理世界探索(如學(xué)習(xí)、旅行)需求強烈,且更習(xí)慣多模態(tài)交互。通過滿足其高頻剛需,比如購物(掃描商品)、教育(拍照解題)、健康(醫(yī)療報告解讀)等,夸克快速建立AI服務(wù)心智,形成“入口即服務(wù)”的強綁定。

以拍照為例,當你拍了一個東西并“拍照問夸克”多少錢,它會首先描述一下你拍的東西,并給出相應(yīng)的淘寶參考鏈接。并且夸克并不是直勾勾的引導(dǎo)購買,更多是作為一個信息提供給用戶。一個直接觸達用戶的鏈路,就被打通了。

未來拍照功能還可以放到AI眼鏡等智能終端上,夸克成為阿里首個整合“視覺+語言”交互的超級入口,成為物理世界與數(shù)字服務(wù)的連接點,打開阿里AI To C的想象力。

透過夸克的拍照入口,我們不只能進一步看清、看懂物理世界,也看見了阿里與AI的無限可能性。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2025-05-08
夸克新入口:重構(gòu)AI“視界觀”,望見阿里AI新版圖
夸克新入口:重構(gòu)AI“視界觀”,望見阿里AI新版圖

長按掃碼 閱讀全文