Link:https://huggingface.co/visheratin/LLaVA-3b
LLaVA-3b是一種基於Dolphin 2.6 Phi進行微調的模型,使用SigLIP 400M的視覺塔以LLaVA方式進行微調。模型具有多個影象標記、使用視覺編碼器的最新層輸出等特點。此模型基於Phi-2,受微軟研究許可證約束,禁止商業使用。感謝ML Collective提供的計算資源積分。
需求人群:
- LLaVA-3b可用於影象描述生成、視覺問答等應用場景。
產品特色:
- 模型微調
- 模型部署
- 在Transformers中使用