SliceGPT:切片GPT:透過刪除行和列來壓縮大型語言模型

Link:slicegpt
切片GPT是一種新的後訓練稀疏化方案,它透過用較小(密集)的矩陣替換每個權重矩陣來減少網路的嵌入維度。透過大量實驗,我們展示了切片GPT可以在保持99%、99%和90%的零-shot任務效能的前提下,移除LLAMA2-70B、OPT 66B和Phi-2模型的高達25%的模型引數(包括嵌入)。我們的切片模型在較少的GPU上執行,並且在不進行任何額外程式碼最佳化的情況下執行速度更快:在24GB消費級GPU上,我們將LLAMA2-70B的推理總計算量減少到密集模型的64%;在40GB A100 GPU上,我們將其減少到66%。我們提供了一個新的見解,即變壓器網路中的計算不變性,這使得切片GPT成為可能。我們希望它能激發並促進未來減少預訓練模型的記憶體和計算需求的新途徑。

需求人群:

"切片GPT適用於需要提高模型計算效率、減少記憶體佔用的場景。"

使用場景示例:

切片GPT可用於減少大型語言模型的記憶體消耗。

切片GPT可用於加速大型語言模型的推理過程。

切片GPT可用於提高預訓練模型的計算效率。

產品特色:

後訓練稀疏化

模型引數壓縮

提高模型計算效率

返回頂端