Multi-modal Large Language Models：提供全面的MLLMs評估

Link：multi-modal-large-language-models
該工具旨在透過對最新專有和開源MLLMs進行定性研究，從文字、程式碼、影象和影片四個模態的角度，評估其泛化能力、可信度和因果推理能力，以提高MLLMs的透明度。我們相信這些屬性是定義MLLMs可靠性的幾個代表性因素，支援各種下游應用。具體而言，我們評估了閉源的GPT-4和Gemini以及6個開源LLMs和MLLMs。總體上，我們評估了230個手動設計的案例，定性結果總結為12個分數（即4個模態乘以3個屬性）。總共，我們揭示了14個實證發現，有助於瞭解專有和開源MLLMs的能力和侷限性，以更可靠地支援多模態下游應用。

需求人群：

"用於評估多模態大型語言模型的效能和可靠性"

使用場景示例：

用於評估一個新的多模態大型語言模型在文字生成方面的效能

用於評估一個開源MLLM在影象處理方面的可信度

用於評估一個專有MLLM在影片內容理解方面的泛化能力

產品特色：

評估MLLMs的泛化能力、可信度和因果推理能力

支援各種下游應用

Multi-modal Large Language Models：提供全面的MLLMs評估

其他相關AI產品