Generative Powers of Ten:基於文字描述實現多尺度連續縮放影片生成。

Generative Powers of Ten是一種利用文字到影象模型生成多尺度一致內容的方法,能夠實現對場景的極端語義縮放,例如從森林的廣角景觀檢視到樹枝上昆蟲的微距拍攝。這種表示方式使我們能夠渲染連續縮放影片,或者互動式地探索場景的不同尺度。我們透過一種聯合多尺度擴散取樣方法實現這一點,該方法鼓勵在不同尺度之間保持一致性,同時保留每個單獨取樣過程的完整性。由於每個生成的尺度都由不同的文字提示指導,我們的方法能夠實現比傳統的超解析度方法更深層次的縮放,後者可能難以在完全不同的尺度上建立新的上下文結構。我們在影象超解析度和外部繪製的替代技術上對我們的方法進行了定性比較,並表明我們的方法在生成一致的多尺度內容方面最為有效。