TC-Bench:影片生成模型的時間組合性評估工具
TC-Bench是一個專門用於評估影片生成模型的時間組合性的工具。它透過精心設計的文本提示、相應的真實影片以及強大的評估指標來衡量影片生成模型在不同時間點上新概唸的出現及其關係轉換的能力。TC-Bench不僅適用於文本條件模型,也適用於影象條件模型,能夠進行生成性幀插值。
TC-Bench是一個專門用於評估影片生成模型的時間組合性的工具。它透過精心設計的文本提示、相應的真實影片以及強大的評估指標來衡量影片生成模型在不同時間點上新概唸的出現及其關係轉換的能力。TC-Bench不僅適用於文本條件模型,也適用於影象條件模型,能夠進行生成性幀插值。
該工具旨在透過對最新專有和開源MLLMs進行定性研究,從文字、程式碼、影象和影片四個模態的角度,評估其泛化能力、可信度和因果推理能力,以提高MLLMs的透明度。我們相信這些屬性是定義MLLMs可靠性的幾個代表性因素,支援各種下游應用。具體而言,我們評估了閉源的GPT-4和Gemini以及6個開源LLMs和MLLMs。總體上,我們評估了230個手動設計的案例,定性結果總結為12個分數(即4個模態乘以3個屬性)。總共,我們揭示了14個實證發現,有助於瞭解專有和開源MLLMs的能力和侷限性,以更可靠地支援多模態下游應用。