Transformer Debugger (TDB):由OpenAI的Superalignment團隊開發的用於調查小型語言模型特定行為的工具

Transformer Debugger結合了自動化可解釋性和稀疏自編碼器技術,支援在編寫程式碼之前進行快速探索,並能夠在前向傳遞中進行干預,以觀察其如何影響特定行為。它透過識別對行為有貢獻的特定元件(神經元、注意力頭、自編碼器潛在表示),展示自動生成的解釋來說明這些元件為何強烈啟用,並追蹤元件間的連線以幫助發現電路。