Sora Text to Video

OpenAI 今日 (2月15日) 發布 Sora ,一個根據文字產生 視頻 的生成式 AI 模型。OpenAI 聲稱,只要給予簡短或詳細的說明,或是一張靜態圖片,Sora 就能生成具有多個角色、不同類型動作和背景細節的 1080p 電影級 視頻 。

Sora 還能「延伸」現有的影片片段,盡力填補遺失的細節。

OpenAI 在一篇部落格文章中寫道:「Sora 深入理解語言,能精準詮釋提示,並生成表達生動情緒的引人入勝角色。」「這個模型不僅理解使用者在提示中要求的事物,還理解這些事物在物理世界中的存在方式。」

現在,OpenAI 的 Sora 示範頁面有很多絢麗宣傳,上面那段話就是一個例子。但從這個模型中精選的範例看起來相當令人印象深刻,至少與我們看過的其他文字轉影片技術相比是如此。

首先,Sora 能生成各種風格(例如寫實、動畫、黑白)長達一分鐘的影片,遠遠超過大多數文字轉影片模型。而且這些影片維持著合理的連貫性,意思是不會總是屈服於所謂的「AI 怪異現象」,例如物體以物理上不可能的方向移動、不斷改變形狀及外觀等。