連結:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT-v1.1
HunyuanDiT-v1.1是由騰訊Hunyuan團隊開發的一款多解析度擴散變換模型,它具備精細的中英文理解能力。該模型透過精心設計的變換器結構、文本編碼器和位置編碼,結合從頭開始構建的完整資料管道,實作資料的迭代最佳化。HunyuanDiT-v1.1能夠執行多輪多模態對話,根據上下文生成和細化影象。經過50多名專業人類評估員的全面評估,HunyuanDiT-v1.1在中文到影象生成方面與其他開源模型相比,達到了新的最先進水平。
需求人群:
- HunyuanDiT-v1.1適合需要生成高質量影象的設計師、藝術家和研究人員。無論是進行藝術創作還是進行影象相關的學術研究,該模型都能夠提供強大的支援。
使用場景示例:
- 生成一幅賽博龐克風格的跑車畫作
- 畫一個木製的鳥並將其變為玻璃材質
- 透過多輪對話生成太空人騎馬的影象
產品特色:
- 中英文雙語DiT架構
- 多輪文本到影象生成
- 自然語言指令理解與使用者多輪互動
- 多模態大型語言模型訓練,以最佳化影象字幕
- 根據使用者對話輸出新的文本提示進行影象生成
使用教學:
安裝必要的依賴項和環境
下載並設定HunyuanDiT-v1.1模型
使用提供的腳本或接口輸入文本提示
根據需要調整生成影象的引數,如尺寸、風格等
執行生成命令,獲取AI生成的影象