可解釋性

Patchscope:語言模型隱藏表示檢查統一框架

Patchscope是一個用於檢查大型語言模型(LLM)隱藏表示的統一框架。它能解釋模型行為,驗證其與人類價值觀的一致性。透過利用模型本身生成人類可理解的文字,我們提出利用模型本身來解釋其自然語言內部表示。我們展示了Patchscopes框架如何用於回答關於LLM計算的廣泛研究問題。我們發現,基於將表示投影到詞彙空間和干預LLM計算的先前可解釋性方法,可以被視為此框架的特殊例項。此外,Patchscope還開闢了新的可能性,例如使用更強大的模型來解釋較小模型的表示,並解鎖了自我糾正等新應用,如多跳推理。

Understanding Video Transformers:解釋影片Transformer決策過程的概念發現

這篇論文研究了影片Transformer表示的概念解釋問題。具體而言,我們試圖解釋基於高階時空概唸的影片Transformer的決策過程,這些概念是自動發現的。以往關於基於概唸的可解釋性的研究僅集中在影象級任務上。相比之下,影片模型處理了額外的時間維度,增加了複雜性,並在識別隨時間變化的動態概念方面提出了挑戰。在這項工作中,我們透過引入第一個影片Transformer概念發現(VTCD)演演算法系統地解決了這些挑戰。為此,我們提出了一種有效的無監督影片Transformer表示單元(概念)識別方法,並對它們在模型輸出中的重要性進行排名。所得的概念具有很高的可解釋性,揭示了非結構化影片模型中的時空推理機制和以對象為中心的表示。透過在多樣的監督和自監督表示上聯合進行這種分析,我們發現其中一些機制在影片Transformer中是普遍的。最後,我們證明VTCD可以用於改善精細任務的模型效能。

返回頂端