InternLM-XComposer-2.5:一款多功能大型視覺語言模型
InternLM-XComposer-2.5是一款支援長上下文輸入和輸出的多功能大型視覺語言模型。它在各種文本影象理解和創作應用中表現出色,實作了與GPT-4V相當的水平,但僅使用了7B的LLM後端。該模型透過24K交錯影象文本上下文進行訓練,能夠無縫擴充到96K長上下文,透過RoPE外推。這種長上下文能力使其在需要廣泛輸入和輸出上下文的任務中表現突出。
InternLM-XComposer-2.5是一款支援長上下文輸入和輸出的多功能大型視覺語言模型。它在各種文本影象理解和創作應用中表現出色,實作了與GPT-4V相當的水平,但僅使用了7B的LLM後端。該模型透過24K交錯影象文本上下文進行訓練,能夠無縫擴充到96K長上下文,透過RoPE外推。這種長上下文能力使其在需要廣泛輸入和輸出上下文的任務中表現突出。