Any GPT :多模態大型語言模型

Link:any-gpt-
AnyGPT是一個統一的多模態大型語言模型,利用離散表示進行各種模態的統一處理,包括語音、文字、影象和音樂。AnyGPT可以在不改變當前大型語言模型架構或訓練正規化的情況下穩定訓練。它完全依賴於資料級預處理,促進了新模態無縫整合到語言模型中,類似於新的語言的加入。我們構建了一個用於多模態對齊預訓練的以文字為中心的多模態資料集。利用生成模型,我們合成了第一個大規模的任意到任意的多模態指令資料集。它由10.8萬個多輪對話樣例組成,多種模態交織在一起,因此使模型能夠處理任意組合的多模態輸入和輸出。實驗結果表明,AnyGPT能夠促進任意到任意的多模態對話,同時在所有模態上達到與專用模型相當的效能,證明瞭離散表示可以有效且方便地在語言模型中統一多個模態。

需求人群:

["進行多模態聊天","支援語音助手等應用","創作多模態內容"]

產品特色:

支援語音、文字、影象和音樂多種模態的輸入和輸出

可以進行多輪多模態交織的對話

在各個模態上都能達到專用模型的水平

返回頂端