【まとめ】「Google I/O 2024」で発表された注目の新AI情報 Gemini 1.5 Flashや映像生成AI「Veo」など

発表内容のほとんどがAI関連だった

Googleは2024年5月14日(米国時間)、デベロッパー向けイベント「Google I/O」を開催し、基調講演においてAIに関する数々の新しい発表をおこないました。ここでは注目度の高いAI関連情報を紹介します。

Geminiの新モデル「Gemini 1.5 Flash」が登場、Gemini 1.5 Proも200万トークンに

Google I/O

Gemini 1.5 Flashは高速・高効率のマルチモーダルモデル

Googleの生成AI「Gemini」に新しいモデル「Gemini 1.5 Flash」が登場しました。Gemini 1.5 Flashは小型のGeminiモデルで、応答速度が重要な狭い範囲のタスクや高頻度のタスク、低レイテンシーのタスクに最適化されています。具体的には、要約や画像・ビデオのキャプション付け、長い文章・評価等のデータ抽出に優れているといいます。

ネイティブのマルチモーダルモデルであるため、テキストや画像、音声、動画を組み合わせて入力可能です。コンテキストウィンドウは100万トークンとなっています。Gemini 1.5 Flashは、200以上の国と地域でプレビュー版が公開されています。

Google I/O

Gemini 1.5 Proのコンテキストウィンドウが200万トークンに

また、Gemini 1.5 Proにもアップデートが実施され、コンテキストウィンドウが200万トークンまで拡大されました。翻訳やコーディング、推論など主要なユースケースにおいて品質改善も実施されています。Gemini 1.5 Proは、Gemini AdvancedやWorkspaceアプリなどのGoogle製品に統合していく予定です。

大規模なデータを利用するときはGemini 1.5 Pro、データ容量はそれほど大きくないがレスポンスの速さが要求されるタスクにはGemini 1.5 Flash、といったような使い分けがされることになるでしょう。

より複雑な検索もこなせる「AI Overviews」

Google I/O

Googleは検索にAIを統合した「SGE(Search Generative Experience)」を提供しています。今回、SGEをアップデートした「AI Overviews」が新たに発表されました。

AI Overviewsは、SGEと同じくユーザーの検索結果に対してAIによる回答を表示する機能ですが、SGEよりもさらに複雑な質問に対応します。

Googleは例として、ヨガやピラティスのスタジオを検索するケースを挙げています。ユーザーが、「地元の人に人気があり、通勤に便利な場所にあって新規会員に割引があるスタジオ」を検索すると、条件を満たすスタジオの一覧やマップ情報など複合的な情報を検索結果で確認できます。従来はこのような複雑な内容を検索する際、要素ごとに別の検索をする必要がありましたが、AI Overviewでは知りたい内容を一度に検索可能です。

複雑な質問への回答には、Geminiの多段階推論機能が活用されています。長い質問を分解し、それぞれの要素にどのような答えが必要かを推論することで、複雑な質問にも対応可能となります。

なお、AI Overviewsを利用している場合でも、広告は検索結果の専用枠に表示され、広告を区別するための明確なラベル付けがおこなわれます。

Googleは、AI Overviewsを米国内で今週中にロールアウトを開始します。その他の国にも順次提供予定で、2024年の終わりには10億人のユーザーに提供する計画だとしています。

視覚情報を得て話すAI「Project Astra」

google-io-2024-4

「Project Astra」は、Geminiをベースとして構築された見て話すAI。スマホのカメラなどを介して、ユーザーの見ている情報を理解した上で、ユーザーからの音声入力に対して回答します。

デモ映像では、音の出ている方にカメラを向けて「音を出している物はどれ?」といった質問をしたり、画面上に表示されたコードの解説を求めたりといった様子が映されていました。Googleレンズとみられるデバイスも登場し、メガネの視界にある情報から回答を生成するといったことも可能なようです。なお、Googleによると今回のデモ映像は編集されたものではなく、リアルタイムかつ1テイクで撮影されたものだとのことです。

回答の生成時間は短く、会話をするのと近い感覚でAIに回答を求められます。Google I/Oの前日にOpenAIが発表した「GPT-4o」も、音声入力への素早い回答能力を見せており、Project Astraとの熾烈な開発競争がおこなわれるものとみられます。

Project Astraの機能の一部は、2024年後半にGoogle製品に搭載される予定となっています。

写実的な画像生成AI「Imagen 3」

Google I/O

Imagen 3で生成された狼の画像

「Imagen 3」は、テキストから画像を生成するAIモデルです。Imagen 3の特徴は、写実的な画像を生成できるところで、発表内容によれば生成した狼の画像でヒゲの本数を数えられるほどだといいます。

Google I/O

テキストのレンダリングにも対応する

またImagen 3では、画像生成AIがこれまで苦手としてきたテキストのレンダリングに対応します。テキストレンダリングに対応することで、誕生日メッセージやプレゼンテーションのタイトルスライドなどのほか、看板や標識などテキストを含むオブジェクトを正確に描き出せるようになります。

Imagen 3は現在、ImageFXのプライベートプレビューにて選ばれたクリエイターのみに提供されています。Vertex AIにて近日公開される予定となっています。

1080pの高画質動画を生成できる「Veo」

映像生成AI「Veo」では、1080pの高解像度ビデオを1分以上生成できます。テキストや画像、映像プロンプトから生成可能で、プロンプトのトーンを正確に捉えて、長いプロンプトの細かい部分までレンダリングします。

首尾一貫して映像を生成するために、人物や動物、物体がショット全体を通じてリアルに動きます。また、「タイムラプス」や「風景の空撮」といった撮影用語も理解できるため、プロンプト次第で幅広いテイストの動画を生成できるようになります。

OpenAIも映像生成AI「Sora」を発表しています。Soraは現時点で提供予定などは明らかにされていないものの、Veoとともに高精細映像の生成ツールとしてどのように活用されるのか期待がもたれます。

Veoは、VideoFXのプライベートプレビューにて一部のクリエイターに提供されています。将来的には、Veoの一部の機能がYouTube Shortsやその他の製品にも提供される予定です。

映像でGoogle検索できる「Ask with video」

「Ask with video」は、スマホのカメラで映像を撮影しながらGoogle検索ができる機能です。発表会のデモンストレーションでは、針の落ちないレコードプレーヤーの原因を検索するシチュエーションが示されました。通常、壊れた機器の原因や対処法を検索するときは、機械のモデルや型番を調べたり、不具合箇所を特定したりして検索する必要があります。

しかし、「Ask with video」を使えば、不具合が発生している状況を撮影しながら、検索したい内容を音声入力すれば必要な情報を探すことができます。AIが対象の機器のモデルなどを認識し、発生しているトラブルに対して取りうる対処法を提案してくれます。

Ask with videoは、米国の英語版Search Labsユーザーを対象に、近日中に提供される予定です。

AIにGoogleフォトの写真を探してもらえる「Ask Photos」

Google I/O

「Ask Photos」では、Geminiのマルチモーダル機能を利用して、Googleフォト内の写真をAIに探してもらうことができます。AIは写真の文脈や被写体を理解して、ユーザーの質問に答えられます。場所や人物、日付のような関連キーワードだけでなく、「訪れたことのある国立公園のベストショットを見せて」といった複雑な内容も検索可能です。

AIは必要に応じて画像内のテキストも読み取って条件を満たす画像を探します。デモンストレーションでは、自分の車のナンバーが写った写真を探すという要求に答えている様子が確認できました。

また、Geminiは特定の画像を探すだけでなく、写真のハイライト作成も可能です。AIに頼めば、旅行で大量に撮った写真から条件にあった写真を選んでハイライトを作ってくれます。

Ask Photosは今後数カ月でGoogleフォトにおいて展開されます。

WorkspaceのサイドパネルにGemini 1.5 Proが導入

Google I/O

WorkspaceのサイドパネルにGemini 1.5 Proが導入

Gmailやドキュメント、ドライブなどのサイドパネルで利用できるGeminiに、Gemini 1.5 Proが導入されます。200万トークンのコンテキストウィンドウを備えたGemini 1.5 Proを活用すれば、膨大なデータセットを参照したり、より幅広い質問への回答をもらったりすることが可能です。

WorkspaceのサイドパネルのGeminiは現在、Workspace LabsとGemini for Workspace Alphaユーザーに提供されています。2024年6月からは、Gemini for Workspaceアドオンと、Google OneのAI Premiumプランを通じて、企業や一般ユーザーでも利用できるようになる予定です。

そのほか、Gmailのスマホアプリにも新機能が追加されます。複数のメールのやり取りがおこなわれているスレッドにおいて、要約機能が利用できるようになります。メールスレッドのようやく昨日は、今月中にWorkspace Labsのユーザーに提供され、6月にはGemini for WorkspaceとGoogle OneのAI Premiumユーザーに提供されます。

さらに、より文脈に基づいた返信候補の提供や、「メールの要約」「返信の提案」などのオプションを提供する「Gmail Q&A」も新たに導入予定です。これらの機能は、7月よりスマホのWebでWorkspace Labsユーザーを対象に提供されます。

AndroidデバイスのオンデバイスAI「Gemini Nano」がマルチモーダルに

いくつかのAndroidデバイスに搭載されているオンデバイスAI「Gemini Nano」がマルチモーダルモデルとなることが発表されました。2024年後半にリリース予定のPixelをはじめとして、マルチモダリティを備えた最新モデルのGemini Nanoを発表する予定だとのことです。

マルチモーダルのオンデバイスAIが普及すれば、テキストや音声、画像などの文脈を利用した処理が低レイテンシーで実行可能となり、スマホの使い方が大きく変化する可能性もあります。

詐欺の会話パターンを検出してアラートする新機能

Google I/O

詐欺を検出したときに通知されるアラート

Androidデバイスで通話をしている際に、詐欺によく関連する会話パターンを検出した場合、通話中にリアルタイムでアラートを送信する新機能のテストが実施中です。

詐欺のアラートは、銀行の担当者と称する人物が、緊急の振込やギフトカードでの支払いを求めたり、カードの暗証番号やパスワードといった個人情報を要求したりしたときに発動します。アラートが届いた場合、アラートメッセージから直接通話を終了させることもできます。

このアラート機能は、すべてデバイス上で実行されるため、会話の内容が外部にもれることはないとしています。

本機能の詳細については、2024年後半に案内される予定です。

EDITED BY
TOKIWA