基準測試

LVBench：長影片理解基準測試

LVBench是一個專門設計用於長影片理解的基準測試，旨在推動多模態大型語言模型在理解數小時長影片方面的能力，這對於長期決策制定、深入電影留言和討論、現場體育解說等實際應用至關重要。

Benchmark Medical RAG是一個專注於醫療領域的檢索式問答（Retrieval-Augmented Generation）基準測試平臺。它提供了一系列的資料集和評估工具，旨在推動醫療資訊檢索和生成模型的研究。