SPRIGHT：提高文字到影象模型空間一致性的解決方案

文字到影象

Link：https://spright-t2i.github.io

SPRIGHT是一個專注於空間關係的大規模視覺語言資料集和模型。它透過重新描述600萬張影象構建了SPRIGHT資料集，顯著增加了描述中的空間短語。該模型在444張包含大量物體的影象上進行微調訓練，從而最佳化生成具有空間關係的影象。SPRIGHT在多個基準測試中實現了空間一致性的最新水平，同時提高了影象質量評分。

需求人群：

“SPRIGHT可應用於任何需要生成具有合理空間佈局的影象的場景，如室內設計、平面佈局、機器人環境模擬等。”

使用場景示例：

一間帶有壁爐的客廳,沙發在壁爐的右側,茶几在沙發前方。
一個裝滿水果的籃子,蘋果在左側,香蕉在右側,桔子在中間。
一座城市的街景,高樓大廈在道路的兩側,路中間有一個噴泉。

產品特色：

大規模空間關係資料集SPRIGHT
在具有大量物體的影象上微調訓練以最佳化空間一致性
在多個基準測試中實現了空間一致性的最新水平
提高了影象質量評分FID和CMMD