SpacTor-T5:預訓練T5模型,採用段落破壞和替換標記檢測

Link:spactor-t5
SpacTor是一種新的訓練程式,包括(1)結合了段落破壞(SC)和標記替換檢測(RTD)的混合目標,以及(2)一個兩階段課程,該課程在初始tau次迭代中最佳化混合目標,然後過渡到標準的SC損失。我們在多種NLP任務上進行了實驗,使用編碼器-解碼器架構(T5),SpacTor-T5在下游效能方面與標準的SC預訓練相當,同時減少了50%的預訓練迭代次數和40%的總FLOPs。另外,在相同的計算預算下,我們發現SpacTor能夠顯著提高下游基準效能。

需求人群:

"適用於自然語言處理任務的預訓練模型"

使用場景示例:

在NLP任務中使用SpacTor-T5進行文字生成

利用SpacTor-T5進行情感分析

在問答系統中應用SpacTor-T5進行問題回答

產品特色:

混合目標的訓練程式

段落破壞和標記替換檢測

兩階段課程最佳化

返回頂端