Sora使用入門簡易指南

​Sora基本介紹​

2024年2月16日清晨,OpenAI釋出了文生影片AI模型Sora,引爆全球網路。與以往的文生影片模型Runway和Pika不同,Sora可以持續地模擬人物、動物和物體,並生成同一角色的多個景別的鏡頭,在整個影片中保持其外觀和背景。​
此外,Sora還可以生成圖片。與以往相比,這些圖片中的細節更清晰,包括臉上的斑點和嘴唇上的細紋,解析度最高可達2048×2048。​
總而言之,Sora是一個基於大規模訓練的文字控制影片生成擴散模型。它能夠生成長達1分鐘的高畫質影片,涵蓋廣泛的視覺資料型別和解析度。Sora透過在影片和影象的壓縮潛在空間中訓練,將其分解為時空位置補丁,實現了可擴充套件的影片生成。Sora還展現出一些模擬物理世界和數字世界的能力,如三維一致性和互動,揭示了繼續擴大影片生成模型規模來發展高能力模擬器的前景。​

Sora與其它AI影片工具對比​

表:主要視頻生成模型/技術對比
模型開發團隊推出 時間特點是否 開源生成視頻表現
長度每秒幀數解析度
Gen-2Runway23年6月影視級構圖運鏡,畫面清晰度 精美度最強,最新版本可生成 4K畫質視頻4~16秒24768 x 448(免費) 1536 x 896(付費) 4096x 2160
Pika 1.0PIKA Labs23年11月語義理解能力強,畫面一致性 較佳3~7秒8~241280×720 2560 x 1440
Stable Video DiffusionStablility ai23年11月第一個基於圖像模型 Stable Diffusion 的生成式視頻基礎模 型2~4秒3~30576x 1024
Emu VideoMeta23年11月在生成品質和文本忠實度上表 現較好4秒16512×512
W.A.L.T李飛飛及其 學生團隊、 穀歌23年12月Transformer+diffusion,同時 改善計算成本和資料集問題3秒8512×896
SoraOPENAI24年2月Transformer +diffusion,突破 性的語義理解能力,複雜場景 變化模擬能力、一致性60秒最高1080p
資料來源:RUNWAY官網,OPENAI官網,AI創新視界,AI變革指南,智東西,汽後觀察員,東吳證券研究所

Sora的六大優勢:​

(1)準確性和多樣性:Sora可將簡短的文字描述轉化成長達1分鐘的高畫質影片。它可以準確地解釋使用者提供的文字輸入,並生成具有各種場景和人物的高質量影片剪輯。它涵蓋了廣泛的主題,從人物和動物到鬱鬱蔥蔥的風景、城市場景、花園,甚至是水下的紐約市,可根據使用者的要求提供多樣化的內容。另據Medium,Sora能夠準確解釋長達135個單詞的長提示。​

(2)強大的語言理解:OpenAI利用Dall·E模型的recaptioning(重述要點)技術,生成視覺訓練資料的描述性字幕,不僅能提高文字的準確性,還能提升影片的整體質量。此外,與DALL·E 3類似,OpenAI還利用GPT技術將簡短的使用者提示轉換為更長的詳細轉譯,並將其傳送到影片模型。這使Sora能夠精確地按照使用者提示生成高質量的影片。​

(3)以圖/影片生成影片:Sora除了可以將文字轉化為影片,還能接受其他型別的輸入提示,如已經存在的影象或影片。這使Sora能夠執行廣泛的影象和影片編輯任務,如建立完美的迴圈影片、將靜態影象轉化為動畫、向前或向後擴充套件影片等。OpenAI在報告中展示了基於DALL·E 2和DALL·E 3的影象生成的demo影片。這不僅證明了Sora的強大功能,還展示了它在影象和影片編輯領域的無限潛力。

(4)影片擴充套件功能:由於可接受多樣化的輸入提示,使用者可以根據影象建立影片或補充現有影片。作為基於Transformer的擴散模型,Sora還能沿時間線向前或向後擴充套件影

(5)優異的裝置適配性:Sora具備出色的取樣能力,從寬屏的 1920x1080p 到 豎 屏 的1080×1920,兩者之間的任何影片尺寸都能輕鬆應對。這意味著Sora能夠為各種裝置生成與其原始縱橫比完美匹配的內容。而在生成高解析度內容之前,Sora還能以小尺寸迅速建立內容原型。​

(6)場景和物體的一致性和連續性:Sora可以生成帶有動態視角變化的影片,人物和場景元素在三維空間中的移動會顯得更加自然。Sora 能夠很好地處理遮擋問題。現有模型的一個問題是,當物體離開視野時,它們可能無法對其進行追蹤。而透過一次性提供多幀預測,Sora可確保畫面主體即使暫時離開視野也能保持不變。

Sora使用教程

Sora專案入口網址:

目前Sora尚未對公眾開放,只有部分獲得內測資格使用者可以體驗。

sora 提示詞的基礎思路:

sora 生成影片主要需要設定合理的提示詞,提示詞的的基礎思路如下:

  • 1、背景資訊(包括背景、人物以及您想要包含或修改的任何敘事元素。)
  • 2、視覺細節(例如顏色、燈光、相機角度和樣式。您提供的細節越多,輸出就越接近您的願景。)
  • 3、影片長度和格式

Sora 提示案例如下:

  • 目標:製作一段1分鐘的影片,展示未來的城市景觀。
  • 背景:影片是黃昏時分一座充滿活力、充滿未來感的城市的鳥瞰圖,突出了先進的技術和建築。
  • 視覺細節:這座城市應該有一個霓虹燈的調色盤,有高聳的摩天大樓、飛馳的汽車和熙熙攘攘的街道。鏡頭在城市中流暢地移動,特寫鏡頭捕捉到有趣的科技元素。
  • 長度和格式:1分鐘,16:9縱橫比,1080p解析度。
  • 音訊偏好:環境優美的電子背景音樂,為城市環境和技術帶來未來主義的音效。附加說明:確保影片具有積極、令人敬畏的基調,聚焦於未來城市生活的奇蹟。提示詞示例:

The camera lowers and widens to a grand panoramic view overlooking the beautiful ocean and the historical buildings along the a stunning coastal picturesque town perched on the cliffs.

Eye of the Tiger Zoo edit ft King Monkey, Tired Tiger, and Snapping Turtle

Sora應用前景

目前,影片內容是透過拍攝現實世界或使用特效來製作的,這兩者都可能既昂貴又耗時。如果Sora以合理的價格上市,人們可能會開始將其用作原型設計軟體,以更低的成本視覺化想法。

根據我們對Sora能力的瞭解,它甚至可以用於為娛樂、廣告和教育領域的某些應用建立短影片。

OpenAI關於Sora的技術論文標題為「作為世界模擬器的影片生成模型」。該論文認為,像Sora這樣的更大版本的影片生成器可能是「物理和數字世界的模擬器,以及生活在其中的物體,動物和人」。

如果這是正確的,未來的版本可能會在物理、化學甚至社會實驗中具有科學應用。例如,人們也許能夠測試不同規模的海嘯對不同種類的基礎設施以及附近人們的身心健康的影響。

達到這種模擬水平是非常具有挑戰性的,一些專家表示,像Sora這樣的系統根本無法做到這一點。

一個完整的模擬器需要計算宇宙最詳細水平的物理和化學反應。然而,在未來幾年內,模擬世界的粗略近似並製作人眼逼真的影片可能是可以實現的。

(一)電影製作:預覽與概念驗證

在電影製作領域,Sora的影片生成技術可被應用於專案的早期階段,特別是在預覽和概念驗證環節中。一家知名的電影製作公司 可利用Sora生成了數個關鍵場景的預覽影片,這些影片基於簡單的文字描述,如「未來城市在黃昏的背景下,主角站在高樓之巔俯視下方。」Sora 不僅成功呈現了文字描述中的細節,還以其獨有的視角和創意,為創作者提供了靈感,幫助他們更加準確地定義最終的視覺樣式。透過這種方式,Sora顯著減少了從概念到視覺呈現的時間和成本,同時增強了創意的多樣性和創新性。

(二)設計領域:產品概念和廣告創意

在設計行業,一個創意機構可採用Sora技術為其客戶設計新產品的概念影片和廣告。透過向Sora輸入產品的描述和預期效果,機構能夠迅速獲得一系列創意豐富、視覺吸引的影片,展示了產品在不同環境下的使用場景。這種應用不僅提高了設計流程的效率,還為客戶提供了更加直觀和動態的產品展示方式。此外,利用Sora生成的影片也用於社交媒體廣告,透過生動的視覺故事敘述,有效提高了廣告的互動性和受眾的參與度。

(三)創意產業:音樂影片和動畫

一個新興的音樂製作團隊可用Sora為他們的最新單曲創作了一部音樂影片。透過向Sora提供歌詞和主題描述,團隊得到了一系列與歌曲情感和故事匹配的影片片段。Sora的技術不僅在影片中成功融入了抽象和象徵性的元素,還模擬了動態攝像機運動和複雜的人物 互動,增加了影片的藝術性和觀賞價值。此外,在動畫製作領域,Sora可被用來快速生成原型動畫,幫助動畫師探索不同的風格和敘事方法,加速創作流程,同時提供豐富的視覺材料以供最終產品的參考。

(四)虛擬現實和遊戲:環境設計和資產建立

虛擬現實(VR)和遊戲開發商也可探索使用Sora來設計環境和建立資產。一個VR體驗專案團隊可透過Sora生成了一系列極具沉浸感的環境場景,包括從密林深處到未來城市的全景檢視。Sora在這一過程中展現出的能力包括了對場景細節的精準捕捉以及在生成過程中考慮使用者互動和探索的可能性。此外,一款即將釋出的影片遊 戲使用Sora 來建立遊戲內的資產,如角色、道具和環境元素,這些透過Sora生成的資產不僅保持了視覺上的一致性,還加快了開發進度,降低了製作成本。

如何利用Sora創業賺錢

Sora賺錢邏輯在哪裡?

取決於圍繞Sora創造的價值:

  • 情感價值:賣課緩解焦慮、提供娛樂、情感寄託
  • 藝術價值:微電影
  • 內容價值:小說二創、賣素材、教學、講故事、遊戲生成、廣告
  • 生態價值:Prompt、更加易用小工具、繞過限制
  • 降本增效:快速MVP驗證想法、廣告、電商、電影分鏡

普通人如何利用Sora 做點副業?

  • 用起來,學會怎麼用,知道它能做什麼,邊界在哪裡
  • 選一個適合自己的方向,提前準備好相關素材或者開發專案
  • 技術人員可以準備開始籌備產品、工具:收集Prompt、基於API二次開發