SPRIGHT:提高文字到影象模型空間一致性的解決方案

Link:https://spright-t2i.github.io

SPRIGHT是一個專注於空間關係的大規模視覺語言資料集和模型。它透過重新描述600萬張影象構建了SPRIGHT資料集,顯著增加了描述中的空間短語。該模型在444張包含大量物體的影象上進行微調訓練,從而最佳化生成具有空間關係的影象。SPRIGHT在多個基準測試中實現了空間一致性的最新水平,同時提高了影象質量評分。

需求人群:

“SPRIGHT可應用於任何需要生成具有合理空間佈局的影象的場景,如室內設計、平面佈局、機器人環境模擬等。”

使用場景示例:

  • 一間帶有壁爐的客廳,沙發在壁爐的右側,茶几在沙發前方。
  • 一個裝滿水果的籃子,蘋果在左側,香蕉在右側,桔子在中間。
  • 一座城市的街景,高樓大廈在道路的兩側,路中間有一個噴泉。

產品特色:

  • 大規模空間關係資料集SPRIGHT
  • 在具有大量物體的影象上微調訓練以最佳化空間一致性
  • 在多個基準測試中實現了空間一致性的最新水平
  • 提高了影象質量評分FID和CMMD
返回頂端