OpenAI、テキストから最長1分の動画を生成できるAIモデル「Sora」を発表

OpenAIは2024年2月15日（米国時間）、ユーザーの入力したプロンプトから最長1分間の動画を生成できるAIモデル「Sora」を発表しました。

Soraは、ユーザーが入力したテキストプロンプトや既存の画像・動画から最長1分間の動画を生成できます。複数のキャラクターや特定の動き、背景・オブジェクトを正確に生成可能で、描写されている物の物理法則も理解して描画します。

OpenAIは、Soraを使用して生成したデモ動画をいくつか公開しています。たとえば、「スタイリッシュな女性がネオンで溢れた東京の街を歩く」というプロンプトで生成された動画では、看板に書かれた日本語は正確に描かれていないものの、女性が歩く姿や背景の街並み、水たまりに反射する光などが非常にリアルに表現されています。また、これまでのAI生成動画とは異なり、カメラが移動したり背景が他のオブジェクトに隠れたりしても、描画が一貫性を保っている点も注目されます。

一方でOpenAIによれば、Soraは複雑なシーンの物理法則を正確にシミュレートすることや、特定の原因と結果を理解するのに苦労する場合があるとのこと。例として、人がクッキーをかじる動画で、クッキーをかじった後にそのクッキーにかじり跡が描写されないといったケースが起こり得るとしています。また、空間の左右や時間をかけて発生するイベントの正確な描写、特定のカメラ軌道を追うような描写といったプロンプトの空間的な状況を混同する場合もあるといいます。

Soraが一般提供されれば、誰でもテキストから本格的な動画生成が可能になる反面、有害なコンテンツの生成などの安全性への懸念もあります。OpenAIは、Soraのセキュリティ施策として、Soraが生成したビデオを識別できる検出ツールや、誤解を招くコンテンツを検出するためのツールを開発しています。Soraには、画像生成AI「DALL·E 3」を使用する製品向けの既存の安全対策も活用され、極端な暴力や性的なコンテンツ、憎悪的な画像、有名人に類似した画像、他者の知的財産など、ポリシーに違反するプロンプトをチェックして拒否します。さらに、Soraで生成した動画がユーザーに表示される前に、生成されたすべてのビデオフレームをレビューして、ポリシーに準拠しているかを確認する画像評価ツールも適用されます。

現在Soraへのアクセス権は、リスク評価を専門とするOpenAIの組織「レッドチーム」に加えて、フィードバックを得ることを目的として、ビジュアルアーティストやデザイナー、映画製作者などに付与されています。一般公開はされておらず、公開予定なども明らかにされていません。

SOURCE

OpenAI

EDITED BY

TOKIWA