Link:mgie
MGIE(多模態大語言模型引導的編輯)是一項由蘋果開源的技術,利用多模態大型語言模型(MLLMs)生成影象編輯指令,透過端到端訓練,捕捉視覺想象力並執行影象處理操作,使影象編輯更加智慧、直觀。
需求人群:
"使用者可以透過自然語言直觀地描述影象編輯需求,如改變顏色、調整大小等,無需複雜的描述或區域掩碼,使影象編輯更加自由和輕鬆。"
使用場景示例:
透過指令 ‘提亮影象’ 實現影象編輯
使用 ‘加冷色調’ 指令調整影象顏色
嘗試 ‘新增模糊效果’ 自然語言編輯
產品特色:
透過自然語言指令編輯影象
改變顏色、調整大小、新增特效等
端到端訓練捕捉視覺想象力
簡化影象編輯流程