MG-LLaVA:多粒度視覺指令調優的創新MLLM
MG-LLaVA是一個增強模型視覺處理能力的機器學習語言模型(MLLM),透過整合多粒度視覺流程,包括低解析度、高解析度和以對象為中心的特徵。提出了一個額外的高解析度視覺編碼器來捕捉細節,並透過Conv-Gate融合網路與基礎視覺特徵融合。
MG-LLaVA是一個增強模型視覺處理能力的機器學習語言模型(MLLM),透過整合多粒度視覺流程,包括低解析度、高解析度和以對象為中心的特徵。提出了一個額外的高解析度視覺編碼器來捕捉細節,並透過Conv-Gate融合網路與基礎視覺特徵融合。