Link:https://spright-t2i.github.io
SPRIGHT是一個專注於空間關係的大規模視覺語言資料集和模型。它透過重新描述600萬張影象構建了SPRIGHT資料集,顯著增加了描述中的空間短語。該模型在444張包含大量物體的影象上進行微調訓練,從而最佳化生成具有空間關係的影象。SPRIGHT在多個基準測試中實現了空間一致性的最新水平,同時提高了影象質量評分。
需求人群:
“SPRIGHT可應用於任何需要生成具有合理空間佈局的影象的場景,如室內設計、平面佈局、機器人環境模擬等。”
使用場景示例:
- 一間帶有壁爐的客廳,沙發在壁爐的右側,茶几在沙發前方。
- 一個裝滿水果的籃子,蘋果在左側,香蕉在右側,桔子在中間。
- 一座城市的街景,高樓大廈在道路的兩側,路中間有一個噴泉。
產品特色:
- 大規模空間關係資料集SPRIGHT
- 在具有大量物體的影象上微調訓練以最佳化空間一致性
- 在多個基準測試中實現了空間一致性的最新水平
- 提高了影象質量評分FID和CMMD