Jockey:對話式影片代理,結合大型語言模型與影片處理API
Jockey是一個基於Twelve Labs API和LangGraph構建的對話式影片代理。它將現有的大型語言模型(Large Language Models, LLMs)的能力與Twelve Labs的API結合使用,透過LangGraph進行任務分配,將複雜影片工作流程的負載分配給適當的基礎模型。
Jockey是一個基於Twelve Labs API和LangGraph構建的對話式影片代理。它將現有的大型語言模型(Large Language Models, LLMs)的能力與Twelve Labs的API結合使用,透過LangGraph進行任務分配,將複雜影片工作流程的負載分配給適當的基礎模型。
ActAnywhere是一個用於自動生成與前景主體運動和外觀相符的影片背景的生成模型。該任務涉及合成與前景主體運動和外觀相一致的背景,同時也符合藝術家的創作意圖。ActAnywhere利用大規模影片擴散模型的力量,並專門定製用於此任務。ActAnywhere以一系列前景主體分割作為輸入,以描述所需場景的影象作為條件,生成與條件幀相一致的連貫影片,同時實現現實的前景和背景互動。該模型在大規模人機互動影片資料集上進行訓練。大量評估表明該模型的效能明顯優於基準,可以泛化到各種分佈樣本,包括非人類主體。
該產品提供了一種新穎的框架,用於平滑跳切,特別是在對話影片中。它利用影片中主體的外觀,透過 DensePose 關鍵點和麵部標誌驅動的中級表示來融合其他源幀中的資訊。為了實現運動,它在切割周圍的端幀之間插值關鍵點和標誌。然後使用影象轉換網路從關鍵點和源幀合成畫素。由於關鍵點可能包含錯誤,因此提出了一種跨模態注意機制,以選擇和為每個關鍵點挑選最合適的源。透過利用這種中級表示,我們的方法可以比強影片插值基準獲得更強的結果。我們在對話影片的各種跳切上展示了我們的方法,例如切除填充詞、暫停,甚至隨機切割。我們的實驗表明,即使在對話頭部旋轉或劇烈移動的挑戰性情況下,我們也可以實現無縫過渡。
WinkStuido是一款專業的影片美化工具,提供專業的影片人像精修體驗。支援Windows和macOS系統,擁有畫質修復、AI動漫、影片消除筆、水印消除、AI調色、智慧摳像、噪點消除等功能。使用者可以自定義影片美容方案,批次處理人像,同時提供畫質修復和智慧消除功能,適用於商業拍攝等場景。
Ceacle Tools是一個一站式的創意編輯工具平臺,提供影象增強、背景替換、向量轉換等AI驅動的工具,助力無縫的創意之旅。主要功能包括:高效率的影象和影片編輯工具,一鍵實現上取樣、背景去除、轉換、壓縮等功能;不同格式檔案的全能編輯工具,無需在不同工具間切換;支援批次檔案編輯,workflow設計提高工作流程效率;功能強大、價格親民。適用於設計師、創意工作者、影視後期從業者等創意行業人士。
MOTIA是一個基於測試時適應的擴散方法,利用源影片內的內在內容和運動模式來有效進行影片外延畫。該方法包括內在適應和外在渲染兩個主要階段,旨在提升影片外延畫的質量和靈活性。
Open-Sora是一個開源專案,旨在高效生成高質量影片,並將模型、工具和內容開放給所有人使用。透過擁抱開源原則,Open-Sora不僅民主化了獲取先進影片生成技術的途徑,還提供了一個簡化了影片製作複雜性的流暢、使用者友好的平臺。我們的目標是透過Open-Sora來激發創新、創意和內容創作的包容性。該專案目前處於早期階段,正在積極開發中。Open-Sora支援完整的影片資料預處理、加速訓練、推理等流程。提供的權重可在只經過3天訓練後生成2秒512×512解析度的影片。Open-Sora還透過改進訓練策略實現了46%的成本降低。