文字到影象

Canva Text to Image:透過 AI 文字生成影象,給你完美適合的創作靈感。

Canva 的 AI 影象生成器應用程式讓你隨時擁有完美的影象——即使它還不存在。使用"文字到影象"功能,您只需輸入文字,就能生成用於創意專案(如簡報或社交媒體帖子)的影象。選擇不同的影象風格,如水彩、電影、霓虹燈等。您還可以使用 Canva 的其他 AI 生成器應用程式,如 DALL·E 和 Imagen。無論您是內容創作者、企業家還是藝術家,都可以使用這些工具高效建立獨特的影象和品牌素材。Canva 提供免費和付費訂閱,付費版可以每月生成更多影象。

PhotoVerse:無需調整,定製影象

PhotoVerse是一種無需調整的影象定製方法,利用文字到影象擴散模型,賦予使用者根據特定概念和提示建立定製影象的能力。相比現有方法,PhotoVerse具有快速生成速度、高質量影象和身份保留等優勢。它採用雙分支條件機制,在文字和影象領域實現了對影象生成過程的有效控制。此外,引入了面部身份損失作為訓練過程中增強身份保留的新元件。PhotoVerse僅依賴目標身份的一張面部照片,無需測試時間調整,大大降低了影象生成的資源成本。經過單次訓練,我們的方法能夠在幾秒內生成高質量影象。此外,我們的方法能夠生成包含各種場景和風格的多樣化影象。

PALP:文字到影象模型的個性化定製

內容創作者經常希望使用個人主題建立個性化圖片,超越傳統的文字到影象模型的能力。此外,他們可能希望生成的圖片包含特定的位置、風格、氛圍等。現有的個性化方法可能會在個性化能力和與複雜文字提示的對齊之間做出妥協。這種權衡可能會阻礙使用者提示和主題的忠實性。我們提出了一種新的方法,專注於單個提示的個性化方法,以解決這個問題。我們將這種方法稱為提示對齊個性化。儘管這種方法可能看起來有限,但我們的方法在改進文字對齊方面表現出色,可以建立具有複雜和複雜提示的影象,這對於當前技術來說可能是一個挑戰。具體而言,我們的方法使用額外的得分蒸餾取樣項,使個性化模型與目標提示保持對齊。我們在多次拍攝和單次拍攝設定中展示了我們方法的多功能性,並進一步展示了它可以組合多個主題或從藝術作品等參考影象中獲取靈感。我們定量和定性地與現有基線和最先進的技術進行比較。

DiffusionGPT:基於LLM的文字到影象生成系統

DiffusionGPT是一種基於大型語言模型(LLM)的文字到影象生成系統。它利用擴散模型構建了針對各種生成模型的領域特定樹,從而能夠無縫地適應各種型別的提示並整合領域專家模型。此外,DiffusionGPT引入了優勢資料庫,其中的思維樹得到了人類反饋的豐富,使模型選擇過程與人類偏好保持一致。透過廣泛的實驗和比較,我們展示了DiffusionGPT的有效性,展示了它在不同領域推動影象合成邊界的潛力。

FreeControl:控制文字到影象生成過程

FreeControl是一個無需訓練就可以實現對文字到影象生成過程的可控制的方法。它支援對多種條件、架構和檢查點的同時控制。FreeControl透過結構指導實現與指導影象的結構對齊,透過外觀指導實現使用相同種子的生成影象之間的外觀共享。FreeControl包含分析階段和合成階段。在分析階段,FreeControl查詢文字到影象模型生成少量種子影象,然後從生成的影象構建線性特徵子空間。在合成階段,FreeControl在子空間中運用指導實現與指導影象的結構對齊,以及使用與不使用控制的生成影象之間的外觀對齊。

MobileDiffusion:快速的移動端文字到影象生成工具

MobileDiffusion是一個輕量級的潛在擴散模型,專為移動裝置設計,可以在0.5秒內根據文字提示生成512×512高質量影象。相較於其他文字到影象模型,它更小巧(僅520M引數),非常適合在手機上部署使用。它的主要功能包括:1)基於文字生成影象;2)快速生成,0.5秒內完成;3)小巧的引數量,僅520M;4)生成高質量影象。主要使用場景包括內容創作、藝術創作、遊戲和App開發等領域。示例使用包括:輸入’盛開的玫瑰花’生成玫瑰花圖片,輸入’金色 retrievier 撒歡跑’生成小狗圖片,輸入’火星風景,外太空’生成火星圖。相較於其他大模型,它更適合在移動裝置上部署使用。

Orthogonal Finetuning (OFT):OFT可有效穩定微調文字到影象擴散模型

Controlling Text-to-Image Diffusion研究瞭如何有效引導或控制強大的文字到影象生成模型進行各種下游任務。提出了正交微調(OFT)方法,可以保持模型的生成能力。OFT可以保持神經元之間的超球面能量不變,防止模型坍塌。作者考慮了兩種重要的微調任務:主體驅動生成和可控生成。結果表明,OFT方法在生成質量和收斂速度上優於現有方法。

RPG-DiffusionMaster:文字到影象生成/編輯框架

RPG-DiffusionMaster是一個全新的無需訓練的文字到影象生成/編輯框架,利用多模態LLM的鏈式推理能力增強文字到影象擴散模型的組合性。該框架採用MLLM作為全域性規劃器,將複雜影象生成過程分解為多個子區域內的簡單生成任務。同時提出了互補的區域擴散以實現區域化的組合生成。此外,在提出的RPG框架中閉環地整合了文字引導的影象生成和編輯,從而增強了泛化能力。大量實驗證明,RPG-DiffusionMaster在多類別對象組合和文字-影象語義對齊方面優於DALL-E 3和SDXL等最先進的文字到影象擴散模型。特別地,RPG框架與各種MLLM架構(例如MiniGPT-4)和擴散骨幹(例如ControlNet)相容性廣泛。

CogView:基於Transformer的通用領域文字到影象生成

CogView是一個用於通用領域文字到影象生成的預訓練Transformer模型。該模型包含410億引數,能夠生成高質量、多樣化的影象。模型的訓練思路採用抽象到具體的方式,先 pretrain 獲得通用知識,然後 finetune 在特定域生成影象,能顯著提升生成質量。值得一提的是,論文還提出了兩種幫助大模型穩定訓練的技巧:PB-relax 和 Sandwich-LN。

Animagine XL 3.1:基於穩定擴散生成高質量動漫風格影象的文字到影象模型

Animagine XL 3.1 是一款能夠基於文字提示生成高質量動漫風格影象的文字到影象生成模型。它建立在穩定擴散 XL 的基礎之上,專門針對動漫風格進行了最佳化。該模型具有更廣泛的動漫角色知識、最佳化過的資料集和新的美學標籤,從而提高了生成影象的質量和準確性。它旨在為動漫愛好者、藝術家和內容創作者提供有價值的資源。

返回頂端