FreGrad:輕量快速頻率感知擴散聲碼器

Link:fregrad
FreGrad是一款輕量快速的頻率感知擴散聲碼器,旨在生成逼真的音訊。其框架包括離散小波變換、頻率感知擴張卷積和一系列增強模型生成質量的技巧。在實驗中,FreGrad相比基準模型,訓練速度提升3.7倍,推理速度提升2.2倍,同時模型大小減少0.6倍(僅178萬引數),而不犧牲輸出質量。

需求人群:

"FreGrad可用於音訊生成、語音合成等場景。"

使用場景示例:

音訊生成模型訓練

語音合成應用

音訊處理外掛

產品特色:

離散小波變換

頻率感知擴張卷積

生成質量增強技巧

返回頂端