騰訊云TencentOS Server AI,助力榮耀打造高性能AI底座

隨著生成式AI技術的爆發(fā)式增長,AI大模型開始滲透至手機領域,一線廠商已經把AI應用集成到各自最新的產品中,并且在以驚人的速度迭代。為了進一步提升大模型部署的效能,榮耀基于應用騰訊云TencentOS Server AI中提供的TACO-LLM加速模塊部署DeepSeek-R1等開源大模型,并應用榮耀企業(yè)內部等場景,穩(wěn)定性、可靠性、推理性能均大幅提升。

在推理平臺場景中,榮耀側重關注框架效能、穩(wěn)定性、運行狀態(tài)監(jiān)控及應急預案等特性。使用TACO-LLM進行推理任務后,在DeepSeek-R1 滿血版場景下,相對于榮耀原始線上業(yè)務性能,TTFT(首Token 延遲)P95 的響應時間最高降低6.25倍,吞吐提升2倍,端到端延遲降低100%。在社區(qū)最新版本sglang場景下,TTFT P95的響應時間最高降低12.5倍。

騰訊云TencentOS Server AI,助力榮耀打造高性能AI底座

騰訊云TACO-LLM之所以能夠對榮耀業(yè)務的性能提升如此明顯,主要的得益于多種投機采樣技術核心能力:大語言模型的自回歸解碼屬性無法充分利用GPU的算力,計算效率不高,解碼成本高昂。而TACO-LLM通過投機采樣的方式,從根本上解決了計算密度的問題,讓真正部署的大模型實現(xiàn)“并行”解碼,從而大幅提高解碼效率。

榮耀大數(shù)據(jù)平臺部相關負責人表示:“榮耀使用騰訊云 TACO-LLM 打造高性能的AI底座,部署穩(wěn)定可靠,提升了性能加速體驗。”

TencentOS Server AI加速版中提供的TACO-LLM加速模塊,針對企業(yè)級AI模型私有化部署挑戰(zhàn),對大語言模型業(yè)務進行了專門的內核運行優(yōu)化,用于提高大語言模型的推理效能,提供兼顧高吞吐和低延時的優(yōu)化方案,能夠“無縫”整合到現(xiàn)有的大模型部署方案中。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )