CogView:基於Transformer的通用領域文字到影象生成

Link:cogview
CogView是一個用於通用領域文字到影象生成的預訓練Transformer模型。該模型包含410億引數,能夠生成高質量、多樣化的影象。模型的訓練思路採用抽象到具體的方式,先 pretrain 獲得通用知識,然後 finetune 在特定域生成影象,能顯著提升生成質量。值得一提的是,論文還提出了兩種幫助大模型穩定訓練的技巧:PB-relax 和 Sandwich-LN。

需求人群:

["文字描述到影象生成","影象超解析度","語義理解"]

使用場景示例:

一個胖乎乎的貓坐在桌子上

一朵粉色的玫瑰花在陽光下盛開

藍色的天空中有一群白雲飄過

產品特色:

輸入普通語言描述,生成匹配的影象

支援中英文輸入

支援超解析度提升生成影象質量

支援後期篩選生成樣本

返回頂端