可解釋性 Archives - AI書籤-全球ai人工智慧產品和服務

Patchscope：語言模型隱藏表示檢查統一框架

Patchscope是一個用於檢查大型語言模型（LLM）隱藏表示的統一框架。它能解釋模型行為，驗證其與人類價值觀的一致性。透過利用模型本身生成人類可理解的文字，我們提出利用模型本身來解釋其自然語言內部表示。我們展示了Patchscopes框架如何用於回答關於LLM計算的廣泛研究問題。我們發現，基於將表示投影到詞彙空間和干預LLM計算的先前可解釋性方法，可以被視為此框架的特殊例項。此外，Patchscope還開闢了新的可能性，例如使用更強大的模型來解釋較小模型的表示，並解鎖了自我糾正等新應用，如多跳推理。

Understanding Video Transformers：解釋影片Transformer決策過程的概念發現

可解釋性, 影片

這篇論文研究了影片Transformer表示的概念解釋問題。具體而言，我們試圖解釋基於高階時空概唸的影片Transformer的決策過程，這些概念是自動發現的。以往關於基於概唸的可解釋性的研究僅集中在影象級任務上。相比之下，影片模型處理了額外的時間維度，增加了複雜性，並在識別隨時間變化的動態概念方面提出了挑戰。在這項工作中，我們透過引入第一個影片Transformer概念發現（VTCD）演演算法系統地解決了這些挑戰。為此，我們提出了一種有效的無監督影片Transformer表示單元（概念）識別方法，並對它們在模型輸出中的重要性進行排名。所得的概念具有很高的可解釋性，揭示了非結構化影片模型中的時空推理機制和以對象為中心的表示。透過在多樣的監督和自監督表示上聯合進行這種分析，我們發現其中一些機制在影片Transformer中是普遍的。最後，我們證明VTCD可以用於改善精細任務的模型效能。