LLaVA-3b:基於Dolphin 2.6 Phi進行微調的模型
LLaVA-3b是一種基於Dolphin 2.6 Phi進行微調的模型,使用SigLIP 400M的視覺塔以LLaVA方式進行微調。模型具有多個影象標記、使用視覺編碼器的最新層輸出等特點。此模型基於Phi-2,受微軟研究許可證約束,禁止商業使用。
LLaVA-3b是一種基於Dolphin 2.6 Phi進行微調的模型,使用SigLIP 400M的視覺塔以LLaVA方式進行微調。模型具有多個影象標記、使用視覺編碼器的最新層輸出等特點。此模型基於Phi-2,受微軟研究許可證約束,禁止商業使用。