Link:speechgpt
SpeechGPT是一種多模態語言模型,具有內在的跨模態對話能力。它能夠感知並生成多模態內容,遵循多模態人類指令。SpeechGPT-Gen是一種擴充套件了資訊鏈的語音生成模型。SpeechAgents是一種具有多模態多代理系統的人類溝通模擬。SpeechTokenizer是一種統一的語音標記器,適用於語音語言模型。這些模型和資料集的釋出日期和相關資訊均可在官方網站上找到。
需求人群:
"可用於語音內容生成、多模態人機互動等場景"
使用場景示例:
使用SpeechGPT進行多模態對話生成
利用SpeechGPT-Gen進行資訊鏈語音生成
使用SpeechTokenizer進行語音標記
產品特色:
多模態內容感知和生成
資訊鏈語音生成
多模態多代理系統
統一的語音標記