視覺

moondream：一款強大的小型視覺語言模型，無處不在

視覺, 語言模型

moondream是一個使用SigLIP、Phi-1.5和LLaVA訓練資料集構建的16億引數模型。由於使用了LLaVA資料集，權重受CC-BY-SA許可證保護。您可以在Huggingface Spaces上嘗試使用它。該模型在VQAv2、GQA、VizWiz和TextVQA基準測試中表現如下：LLaVA-1.5（13.3B引數）：80.0、63.3、53.6、61.3；LLaVA-1.5（7.3B引數）：78.5、62.0、50.0、58.2；MC-LLaVA-3B（3B引數）：64.2、49.6、24.9、38.6；LLaVA-Phi（3B引數）：71.4、-、35.9、48.6；moondream1（1.6B引數）：74.3、56.3、30.3、39.8。

A Vision Check-up：學習模型間字元串關係，檢查視覺世界

視覺, 語言模型

這篇論文系統評估了大型語言模型（LLMs）生成和識別逐漸複雜的視覺概唸的能力，並展示瞭如何使用文字模型訓練初步的視覺表示學習系統。雖然語言模型不能直接處理畫素級的視覺資訊，但使用程式碼表示影象進行研究。LLM 生成的影象雖然不像自然影象，但在影象生成和糾正方面的結果表明，準確建模字元串可以教會語言模型許多關於視覺世界的方面。此外，利用文字模型生成的影象進行自監督視覺表示學習的實驗，突出了只使用 LLMs 就能訓練能夠對自然影象進行語義評估的視覺模型的潛力。

Qwen-VL：通用型視覺語言模型

視覺, 語言模型

Qwen-VL 是阿里雲推出的通用型視覺語言模型,具有強大的視覺理解和多模態推理能力。它支援零樣本影象描述、視覺問答、文字理解、影象地標定位等任務,在多個視覺基準測試中達到或超過當前最優水平。該模型採用 Transformer 結構,以 7B 引數規模進行預訓練,支援 448×448 解析度,可以端到端處理影象與文字的多模態輸入與輸出。Qwen-VL 的優勢包括通用性強、支援多語種、細粒度理解等。它可以廣泛應用於影象理解、視覺問答、影象標註、圖文生成等任務。

Blenny AI：AI 視覺輔助工具

Blenny AI 是一款可以幫助使用者對網頁進行截圖並進行智慧分析的 AI 視覺輔助工具。使用者可以透過截圖快速獲取 AI 摘要、翻譯和訪問網頁等功能。此外，Blenny AI 還支援自定義 AI 代理，根據使用者的需求提供個性化的服務。Blenny AI 由 GPT-4V 驅動。