Transformer Debugger (TDB)：由OpenAI的Superalignment團隊開發的用於調查小型語言模型特定行為的工具

Link：transformer-debugger-tdb-
Transformer Debugger結合了自動化可解釋性和稀疏自編碼器技術，支援在編寫程式碼之前進行快速探索，並能夠在前向傳遞中進行幹預，以觀察其如何影響特定行為。它透過識別對行為有貢獻的特定元件（神經元、注意力頭、自編碼器潛在表示），展示自動生成的解釋來說明這些元件為何強烈啟用，並追蹤元件間的連線以幫助發現電路。

需求人群：

"適用於研究人員和開發者，用於調查和理解語言模型的行為，以及進行模型除錯和最佳化。"

使用場景示例：

使用TDB調查為什麼模型對某個提示輸出特定的詞彙

探索注意力頭為何關注特定詞彙

透過TDB理解模型中神經元的啟用模式

產品特色：

自動化解釋小型語言模型的行為

幹預前向傳遞以觀察模型行為的變化

識別並解釋模型中特定元件的啟用原因

追蹤元件間的連線以發現模型中的電路

Transformer Debugger (TDB)：由OpenAI的Superalignment團隊開發的用於調查小型語言模型特定行為的工具

其他相關AI產品