OpenAIは2024年5月13日(米国時間)、GPT-4モデルの改良版である「GPT-4o」を発表しました。GPT-4oは、無料ユーザーを含むすべてのユーザーを対象に提供されます。
GPT-4oは、ChatGPTの言語モデルであるGPT-4の改良版。GPT-4oの“o”は、omni(オムニ)という単語に由来しており、omniは「すべての」などの意味を持つ単語でGPT-4oがネイティブのマルチモーダルモデルであることを示しています。マルチモーダルモデルでは、テキストや画像、映像といったさまざまなタイプの複雑な情報を処理できるため、異なる言語で書かれたメニューの写真をもとに、GPT-4oに話しかけて翻訳してもらったり、料理の歴史やおすすめの料理を教えてもらったりといった操作も可能です。
音声モードの応答速度は、入力に対して最短232ミリ秒、平均320ミリ秒となっており、会話における人間の応答速度と同程度となっています。従来はChatGPTに話しかけたあとに、しばらく回答を待つ時間がありましたが、GPT-4oでは人間と話すのに近い感覚でChatGPTとやり取りができるようになります。
OpenAIの公開したデモ映像では、スマホのカメラで読み取った視覚情報からユーザーが何をしているのか推察して回答しています。単に物を認識するだけでなく物の配置や状況なども汲み取った上で、何らかのツールの発表を実施しているという回答をしています。
また、英語話者とスペイン語話者の間にたって瞬間的に会話を翻訳している様子も確認できます。翻訳に要する待ち時間はほとんどなく、限りなく同時通訳に近い形で会話を成立させています。
OpenAIによると、より自然なリアルタイムの音声会話機能や、リアルタイムで動画を見ながらChatGPTと会話できる機能も将来的に追加される予定だとのこと。新しい音声モードは、今後数週間のうちにChatGPT Plusユーザー向けにアルファ版として提供されます。
また、GPT-4oではサインアップやログイン、ユーザー設定などで50以上の言語を新たにサポートします。
GPT-4oのテキストおよび画像の機能は、ChatGPTで本日から展開されています。無料ユーザーも対象となっていますが、利用上限はChatGPT Plusユーザーで無料ユーザーの最大5倍となっています。ChatGPT TeamとEnterpriseユーザーの場合は、ChatGPT Plusよりもさらに高い上限が設定されています。