視頻生成跨越式突破,智象未來(HiDream.ai)智象大模型2.0邁入分鐘級行列

近日,智象未來(HiDream.ai)智象大模型2.0在文生視頻領(lǐng)域取得了重大突破,將視頻生成時長從去年的15秒提升至分鐘級別,這是繼去年12月打破4秒時長限制后的又一技術(shù)飛躍。

智象未來(HiDream.ai)智象大模型2.0的文生視頻功能在時長、畫面自然度、內(nèi)容和角色一致性方面均有顯著提升,這得益于其自研的DiT架構(gòu)。與傳統(tǒng)U-Net架構(gòu)相比,DiT架構(gòu)具有更高的靈活度,能夠有效提升圖像和視頻的生成質(zhì)量。眾所周知,DiT 架構(gòu)的基礎(chǔ)實現(xiàn)依賴于 Transformer 技術(shù)。為了進一步提升這一技術(shù)的性能,智象未來(HiDream.ai)智象大模型 2.0 對整個Transformer網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)的構(gòu)成和訓(xùn)練策略上采用完全自研的模塊,特別是在訓(xùn)練策略方面進行了深度研究和改進。

該模型采用了高效的時空聯(lián)合注意力機制,不僅適應(yīng)了視頻的空間域和時間域特征,還解決了傳統(tǒng)注意力機制在訓(xùn)練過程中的速度問題。為了支持更長視頻片段的訓(xùn)練,智象未來(HiDream.ai)智象大模型2.0能夠處理幾分鐘甚至十幾分鐘的視頻片段,使得直接輸出分鐘級時長的視頻成為可能。同時,智象未來(HiDream.ai)還自研了視頻描述生成的Captioning Model,實現(xiàn)了對視頻內(nèi)容的詳細且精準描述。

在訓(xùn)練策略上,智象未來(HiDream.ai)智象大模型2.0利用不同長度的視頻片段進行視頻和圖片數(shù)據(jù)的聯(lián)合訓(xùn)練,并動態(tài)調(diào)整不同長度視頻的采樣率,以完成長鏡頭訓(xùn)練。此外,模型還根據(jù)用戶反饋數(shù)據(jù)進行強化學(xué)習(xí),進一步優(yōu)化性能。

從原來的15秒左右延長至分鐘級別,智象未來(HiDream.ai)的智象大模型2.0現(xiàn)已實現(xiàn)視頻生成時長的顯著提升,達到了行業(yè)領(lǐng)先水平。除了視頻時長進入分鐘級別這一重大進步外,此次升級的另一個亮點是視頻時長和尺寸的可變性。以往的視頻生成模型通常是預(yù)設(shè)固定時長,用戶無法進行選擇。而智象未來(HiDream.ai)則將選擇權(quán)交給了用戶,用戶既可以直接指定視頻時長,也可以根據(jù)輸入的Prompt內(nèi)容,讓系統(tǒng)動態(tài)判斷。內(nèi)容復(fù)雜時,系統(tǒng)會生成較長視頻;內(nèi)容簡單時,則生成較短視頻,以這種動態(tài)調(diào)整的方式,自適應(yīng)地滿足用戶的創(chuàng)作需求。同時,視頻的尺寸也可根據(jù)用戶需求進行定制,這一靈活的設(shè)計大幅提升了用戶體驗。

值得一提的是,智象未來(HiDream.ai)的智象大模型2.0在視頻畫面觀感上也有了顯著的提升,物體動作表現(xiàn)得更加自然流暢,細節(jié)渲染更為精細,并且支持了4K超清畫質(zhì)。隨著這次技術(shù)升級,智象未來(HiDream.ai)智象大模型2.0正朝著生成更高質(zhì)量的多鏡頭視頻方向快速發(fā)展,并向L3階段加速前進。據(jù)了解,升級后的文生視頻功能即將投入使用,屆時用戶將能夠體驗到更加豐富和高質(zhì)量的視頻生成服務(wù)。

業(yè)內(nèi)人士表示,隨著智象未來(HiDream.ai)智象大模型2.0的不斷完善和升級,其有望為視頻內(nèi)容創(chuàng)作領(lǐng)域帶來更多革命性的變化,助力廣大用戶輕松實現(xiàn)創(chuàng)意變現(xiàn),推動整個行業(yè)邁向更加廣闊的發(fā)展空間。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )