Link:transformer-debugger-tdb-
Transformer Debugger結合了自動化可解釋性和稀疏自編碼器技術,支援在編寫程式碼之前進行快速探索,並能夠在前向傳遞中進行幹預,以觀察其如何影響特定行為。它透過識別對行為有貢獻的特定元件(神經元、注意力頭、自編碼器潛在表示),展示自動生成的解釋來說明這些元件為何強烈啟用,並追蹤元件間的連線以幫助發現電路。
需求人群:
"適用於研究人員和開發者,用於調查和理解語言模型的行為,以及進行模型除錯和最佳化。"
使用場景示例:
使用TDB調查為什麼模型對某個提示輸出特定的詞彙
探索注意力頭為何關注特定詞彙
透過TDB理解模型中神經元的啟用模式
產品特色:
自動化解釋小型語言模型的行為
幹預前向傳遞以觀察模型行為的變化
識別並解釋模型中特定元件的啟用原因
追蹤元件間的連線以發現模型中的電路