Transformer Debugger (TDB):由OpenAI的Superalignment團隊開發的用於調查小型語言模型特定行為的工具

Link:transformer-debugger-tdb-
Transformer Debugger結合了自動化可解釋性和稀疏自編碼器技術,支援在編寫程式碼之前進行快速探索,並能夠在前向傳遞中進行幹預,以觀察其如何影響特定行為。它透過識別對行為有貢獻的特定元件(神經元、注意力頭、自編碼器潛在表示),展示自動生成的解釋來說明這些元件為何強烈啟用,並追蹤元件間的連線以幫助發現電路。

需求人群:

"適用於研究人員和開發者,用於調查和理解語言模型的行為,以及進行模型除錯和最佳化。"

使用場景示例:

使用TDB調查為什麼模型對某個提示輸出特定的詞彙

探索注意力頭為何關注特定詞彙

透過TDB理解模型中神經元的啟用模式

產品特色:

自動化解釋小型語言模型的行為

幹預前向傳遞以觀察模型行為的變化

識別並解釋模型中特定元件的啟用原因

追蹤元件間的連線以發現模型中的電路

返回頂端