OpenAIは2023年9月25日(米国時間)、ChatGPTでボイスチャット機能と画像入力機能が利用できるようになったと発表しました。
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
ChatGPTは、これまでテキストによるプロンプト入力のみに対応していました。今回、ユーザーの音声による入力と画像を含むプロンプトの入力に新たに対応し、ChatGPTの使い方の幅が大きく広がった形です。ボイスチャットはスマホのChatGPTアプリ(iOS/Android)、画像入力はすべてのプラットフォームに対応します。まずはChatGPT PlusとChatGPT Enterpriseのユーザーを対象に今後2週間で提供され、その他のユーザーには近日中に提供される予定です。



ChatGPTとのボイスチャットでは、ユーザーの声を認識し、それに対してAIが音声で回答をしてくれます。テキストを入力したり、ディスプレイを見たりする必要がないため、手が離せないときでもChatGPTを利用できます。ボイスチャットでおこなった会話の内容はテキストにも保存されるため、会話の終了後でもボイスチャットの内容を確認可能です。
ボイスチャットを利用するには、アプリのメニューボタン
→「Settings」→「New Features」と進み、「Voice conversations」をオンにすれば設定完了です。メイン画面に戻り、画面右上に表示されるヘッドホンボタンをタップして、5種類の声から好きなものを選べば音声会話を開始できます。日本語にも対応しており、日本語で話しかければ日本語で回答を返してくれます。OpenAIによると、ChatGPTのボイスチャットには、わずか数秒の音声からリアルな合成音声を作り出せる技術を利用しているとのこと。合成音声を簡単に作成できる便利さの一方で、悪意ある人が他人になりすましたり、詐欺に使われたりするリスクもあります。そのためOpenAIは、この音声技術をボイスチャットのみに限定して活用しているとしています。

画像をアップロードして関連する質問ができるようになった

AIに注目してほしい箇所を示すことも可能
ChatGPTの画像入力機能では、ユーザーがアップロードした画像をAIが読み取り、ユーザーからの画像の内容を踏まえた質問に回答できるようになります。写真は最大4枚までアップロードでき、複数の画像を比較した内容を尋ねることも可能です。アップロードした画像には、描画ツールでAIに注目してもらいたい箇所を示せます。
ChatGPTの画像入力を活用すれば、故障した機械の写真をアップロードしてどこが原因かを聞いたり、冷蔵庫の中身を写した画像からメニューを考えてもらったりといった、テキストのみではニュアンスの伝えづらい質問もできるようになるでしょう。