視覺

moondream:一款強大的小型視覺語言模型,無處不在

moondream是一個使用SigLIP、Phi-1.5和LLaVA訓練資料集構建的16億引數模型。由於使用了LLaVA資料集,權重受CC-BY-SA許可證保護。您可以在Huggingface Spaces上嘗試使用它。該模型在VQAv2、GQA、VizWiz和TextVQA基準測試中表現如下:LLaVA-1.5(13.3B引數):80.0、63.3、53.6、61.3;LLaVA-1.5(7.3B引數):78.5、62.0、50.0、58.2;MC-LLaVA-3B(3B引數):64.2、49.6、24.9、38.6;LLaVA-Phi(3B引數):71.4、-、35.9、48.6;moondream1(1.6B引數):74.3、56.3、30.3、39.8。

A Vision Check-up:學習模型間字元串關係,檢查視覺世界

這篇論文系統評估了大型語言模型(LLMs)生成和識別逐漸複雜的視覺概唸的能力,並展示瞭如何使用文字模型訓練初步的視覺表示學習系統。雖然語言模型不能直接處理畫素級的視覺資訊,但使用程式碼表示影象進行研究。LLM 生成的影象雖然不像自然影象,但在影象生成和糾正方面的結果表明,準確建模字元串可以教會語言模型許多關於視覺世界的方面。此外,利用文字模型生成的影象進行自監督視覺表示學習的實驗,突出了只使用 LLMs 就能訓練能夠對自然影象進行語義評估的視覺模型的潛力。

Qwen-VL:通用型視覺語言模型

Qwen-VL 是阿里雲推出的通用型視覺語言模型,具有強大的視覺理解和多模態推理能力。它支援零樣本影象描述、視覺問答、文字理解、影象地標定位等任務,在多個視覺基準測試中達到或超過當前最優水平。該模型採用 Transformer 結構,以 7B 引數規模進行預訓練,支援 448×448 解析度,可以端到端處理影象與文字的多模態輸入與輸出。Qwen-VL 的優勢包括通用性強、支援多語種、細粒度理解等。它可以廣泛應用於影象理解、視覺問答、影象標註、圖文生成等任務。

Blenny AI:AI 視覺輔助工具

Blenny AI 是一款可以幫助使用者對網頁進行截圖並進行智慧分析的 AI 視覺輔助工具。使用者可以透過截圖快速獲取 AI 摘要、翻譯和訪問網頁等功能。此外,Blenny AI 還支援自定義 AI 代理,根據使用者的需求提供個性化的服務。Blenny AI 由 GPT-4V 驅動。

返回頂端