LongVA:從語言到視覺的長上下文轉換模型
LongVA是一個能夠處理超過2000幀或超過200K視覺標記的長上下文轉換模型。它在Video-MME中的表現在7B模型中處於領先地位。該模型基於CUDA 11.8和A100-SXM-80G進行了測試,並且可以透過Hugging Face平臺進行快速啟動和使用。
LongVA是一個能夠處理超過2000幀或超過200K視覺標記的長上下文轉換模型。它在Video-MME中的表現在7B模型中處於領先地位。該模型基於CUDA 11.8和A100-SXM-80G進行了測試,並且可以透過Hugging Face平臺進行快速啟動和使用。