moondream:一款強大的小型視覺語言模型,無處不在
moondream是一個使用SigLIP、Phi-1.5和LLaVA訓練資料集構建的16億引數模型。由於使用了LLaVA資料集,權重受CC-BY-SA許可證保護。您可以在Huggingface Spaces上嘗試使用它。該模型在VQAv2、GQA、VizWiz和TextVQA基準測試中表現如下:LLaVA-1.5(13.3B引數):80.0、63.3、53.6、61.3;LLaVA-1.5(7.3B引數):78.5、62.0、50.0、58.2;MC-LLaVA-3B(3B引數):64.2、49.6、24.9、38.6;LLaVA-Phi(3B引數):71.4、-、35.9、48.6;moondream1(1.6B引數):74.3、56.3、30.3、39.8。