依賴于新的采樣技術,Imagen 允許使用大的引導權重,所以不會像原有工作一樣使樣本質量下降。這么一來,圖像具有更高的保真度,并且能更好地完成圖像-文本對齊。
概念說起來簡單,但 Imagen 的效果還是令人大為震撼的。Imagen Video使用級聯擴散模型生成高分辨率視頻:本質上就是說,單獨一個模型不能夠生成高分辨率,但是我可以堆疊多個小模型,來完成這一個目標。
第一步:獲取輸入文本提示,并使用T5文本編碼器將其編碼。
第二步:基于視頻擴散模型生成一個16幀的視頻,分辨率為24*48,每一秒3幀;然后利用時域超分辨率模型和空間超分辨率模型,以1280×768分辨率和每秒24幀的速度進行上采樣,并最終生成128幀的視頻,共5.3秒。
收起