HawkEye:Meta內部AI除錯工具

Link:hawkeye
HawkEye是Meta內部用於監控、可觀測性和機器學習工作流除錯的強大工具包。它支援為許多Meta產品提供推薦和排名模型。在過去的兩年中,它實現了除錯生產問題時間量級的改進。HawkEye包括用於持續收集服務和訓練模型、資料生成相關資料的基礎設施,以及用於挖掘根本原因的資料生成和分析元件。它支援UX工作流進行引導式的探索、調查和啟動緩解措施。HawkEye透過提供基於必要元件的引導式探索介面,允許使用者有效地調查並解決問題。

需求人群:

["除錯線上推薦和排名模型","分析生產環境中的模型問題","加速發現並解決模型服務的特徵問題"]

使用場景示例:

使用HawkEye關聯產品指標異常和特定模型快照,快速定位問題

當模型預測出現偏差時,利用HawkEye的模型解釋功能找出相關的特徵子集

透過檢視訓練資料統計資訊,發現標籤不平衡導致了模型訓練效果不佳

產品特色:

持續收集服務和訓練模型、資料生成的相關資料

針對模型預測質量下降的模型進行分析和檢測

解釋模型和特徵重要性分析以隔離預測變化的特徵子集

透過資料統計資訊和信心度量,沿特徵依賴關係和轉換的上游資料進行根因分析

比較當前模型快照與以前穩定的快照,發現訓練資料或損失散度問題

提供基於模型圖的視覺化,以快速確定壞的快照原因

返回頂端