VCoder:VCoder是一款視覺感知模型,可提高多模態大型語言模型在對象級視覺任務上的效能。

Link:vcoder
VCoder是一個介面卡,可透過輔助感知模式作為控制輸入來提高多模態大型語言模型在對象級視覺任務上的效能。VCoder LLaVA是基於LLaVA-1.5構建的。VCoder不微調LLaVA-1.5的引數,因此在通用的問答基準測試中的效能與LLaVA-1.5相同。VCoder在COST資料集上進行了基準測試,在語義、例項和全景分割任務上都取得了不錯的效能。作者還發布了模型的檢測結果和預訓練模型。

需求人群:

"適用於需要多模態語言模型處理影象的語義理解、問答等任務"

使用場景示例:

使用VCoder LLaVA在COST資料集上進行對象分割

將VCoder作為介面卡新增到多模態語言模型中

載入VCoder的預訓練模型進行影象理解任務

產品特色:

輔助多模態語言模型處理影象

提高在對象級視覺任務上的效能

返回頂端