在科技高速發(fā)展的今天,AI 已經(jīng)開始融入人們的生活,就在不久前阿里集團(tuán)推出了一款可以生成視頻的 AI 框架 Tora,這是一款可以面向軌跡的 DiT 框架,它可以結(jié)合文本、視覺以及軌跡生成視頻。
之前有可以生成視頻的模型也就是擴(kuò)散模型可以生成不同的視頻,這些視頻采用的是 U-Net 框架,并且只能合成比較短時長的視頻。后面出現(xiàn)了 Sora,Sora 采用了 DiT 框架,可以制作比較長的視頻,同時還實(shí)現(xiàn)了真實(shí)的物理定律,但是有一個問題無法生成可控的動作視頻。
而 Tora 的出現(xiàn)就解決了這個問題,Tora 可以和 DiT 框架高度契合,可以生成高運(yùn)動保真度的視頻,同時還可以模擬遵循物理定律的運(yùn)動。
在 Tora 的官網(wǎng)(https://ali-videoai.github.io/tora_video/)中發(fā)布了多個不同的視頻,視頻向我們展示了其生成各種不同場景下物體的運(yùn)動軌跡。
我們可以看見當(dāng)在生成視頻的時候會根據(jù)你提前規(guī)劃好的軌跡來移動視頻中的物體,就像下面這個小船一樣,我們還可以清晰的看見小船滑過水面時的波紋,以及風(fēng)吹水面時的漣漪。
不只是直線軌跡,Tora 生成的視頻還可以按照有一定角度的軌跡進(jìn)行運(yùn)動,就像下面這個孔明燈向空中上升,一個是斜線一個按照一定的角度。
不僅如此,在生成視頻的時候還可以同一個視頻按照不同的軌跡生成不同的運(yùn)動圖像。
Tora 采用了基于軌跡導(dǎo)向的擴(kuò)散變換器(DiT)技術(shù),由一個軌跡提取器(TE)、一個運(yùn)動引導(dǎo)融合器(MGF)和一個時空 DiT 組成。TE 使用 3D 視頻壓縮網(wǎng)絡(luò)將軌跡編碼為分層時空運(yùn)動補(bǔ)丁,MGF 將運(yùn)動貼片傳入 DiT 模塊,然后生成遵循運(yùn)動軌跡的視頻。
Tora 可以制作長 204 幀,分辨率達(dá) 720P 的長視頻,可以控制不同的持續(xù)時間,寬高比例。在研究中研究者對不同分辨率和時長的軌跡進(jìn)行了分析,結(jié)果顯示,Tora 的軌跡誤差隨時間的推移出現(xiàn)增加。
Tora 是阿里集團(tuán)全新推出的基于 DiT 框架的視頻生成器,其獨(dú)特的可以通過融合文本、視覺以及軌跡來控制視頻內(nèi)容讓人眼前一亮。同時想要詳細(xì)了解它的可以查看論文:https://arxiv.org/pdf/2407.21705
本文編輯:@ 小小輝
?本文著作權(quán)歸電手所有,未經(jīng)電手許可,不得轉(zhuǎn)載使用。