視覺處理 Archives - AI書籤-全球ai人工智慧產品和服務

MG-LLaVA：多粒度視覺指令調優的創新MLLM

MG-LLaVA是一個增強模型視覺處理能力的機器學習語言模型（MLLM），透過整合多粒度視覺流程，包括低解析度、高解析度和以對象為中心的特徵。提出了一個額外的高解析度視覺編碼器來捕捉細節，並透過Conv-Gate融合網路與基礎視覺特徵融合。