SpeechGPT:多模態語言模型

Link:speechgpt
SpeechGPT是一種多模態語言模型,具有內在的跨模態對話能力。它能夠感知並生成多模態內容,遵循多模態人類指令。SpeechGPT-Gen是一種擴充套件了資訊鏈的語音生成模型。SpeechAgents是一種具有多模態多代理系統的人類溝通模擬。SpeechTokenizer是一種統一的語音標記器,適用於語音語言模型。這些模型和資料集的釋出日期和相關資訊均可在官方網站上找到。

需求人群:

"可用於語音內容生成、多模態人機互動等場景"

使用場景示例:

使用SpeechGPT進行多模態對話生成

利用SpeechGPT-Gen進行資訊鏈語音生成

使用SpeechTokenizer進行語音標記

產品特色:

多模態內容感知和生成

資訊鏈語音生成

多模態多代理系統

統一的語音標記

返回頂端