A Vision Check-up:學習模型間字元串關係,檢查視覺世界
這篇論文系統評估了大型語言模型(LLMs)生成和識別逐漸複雜的視覺概唸的能力,並展示瞭如何使用文字模型訓練初步的視覺表示學習系統。雖然語言模型不能直接處理畫素級的視覺資訊,但使用程式碼表示影象進行研究。LLM 生成的影象雖然不像自然影象,但在影象生成和糾正方面的結果表明,準確建模字元串可以教會語言模型許多關於視覺世界的方面。此外,利用文字模型生成的影象進行自監督視覺表示學習的實驗,突出了只使用 LLMs 就能訓練能夠對自然影象進行語義評估的視覺模型的潛力。









