ELLA:透過LLM增強語義對齊的擴散模型介面卡

ELLA(Efficient Large Language Model Adapter)是一種輕量級方法,可將現有的基於CLIP的擴散模型配備強大的LLM。ELLA提高了模型的提示跟隨能力,使文字到影象模型能夠理解長文字。我們設計了一個時間感知語義連線器,從預訓練的LLM中提取各種去噪階段的時間步驟相關條件。我們的TSC動態地適應了不同取樣時間步的語義特徵,有助於在不同的語義層次上對U-Net進行凍結。ELLA在DPG-Bench等基準測試中表現優越,尤其在涉及多個對象組合、不同屬性和關係的密集提示方面表現出色。