1. ホーム
  2. 記事一覧
  3. ChatGPTに目ができた!GPT-4Vとは何?使い方を紹介

2023.10.24

ChatGPTに目ができた!GPT-4Vとは何?使い方を紹介

  • AI

2022年11月にリリースされて以来、常に注目を集めているChatGPT。そんなChatGPTに、新しい機能が追加されました。

その名も、GPT-4V。2023年9月25日に導入された機能を使ったユーザーからは、早くも「ChatGPTに目ができた」と話題になっています。

今回はそんなChatGPT-4Vについて解説します。GPT-3.5やGPT-4と違いはもちろん、新しい機能で何ができるのかも紹介していますので、ぜひ参考にしてくださいね。

GPT-4VとはマイモーダルAIのこと

画像引用:ChatGPT-4

GPT-4Vとは、マイモーダルAIです。従来のGPT-4に以下の機能が搭載されました。

  • 画像解析機能
  • 音声出力機能

ざっくり言えば、GPT-4に声と目が実装された形です。GPT-4VのVはビジョンのVというのが、追加された機能からもわかりますね。

GPT-4Vによって、これまでテキスト入力だけの受け答えだったものが、画像や音声を使ってハイレベルな会話ができるようになりました。

使い勝手が大きく広がったのは言うまでもありません。ビジネスはもちろん、「冷蔵庫の写真を使ってAIに食事計画を立ててもらう」なんて日常的な使い方もできます。

プライバシーや安全性の問題はありますが、多くの人にとって使いやすいAIに進化したと言えるでしょう。

GPT-4Vの性能

GPT-4Vでは画像と音声の機能が追加されました。ここからは、どのような性能になったのか詳しく解説します。

具体的には、以下の機能が使えます。

  • 画像とテキストを入力できる
  • 画像の情報を判別できる
  • 音声で対話できる
  • 多言語の入力/出力ができる

画像とテキストを入力できる

GPT-4Vでは、画像とテキストを入力できるようになりました。そのため、画像を使った対話も可能です。

例えば、旅行中に観光地の写真を取ってAIと会話したり、冷蔵庫の中を撮影して献立を考えたりできます。

実際に使っているシーンは、OpenAIがXで公開した以下の動画がわかりやすいでしょう。

https://x.com/OpenAI/status/1706280618429141022?s=20

まるで人間とやり取りしているような感覚で使えます。こうした処理を可能としているのが、次で紹介する画像情報の判別です。

画像の情報を判別できる

GPT-4Vは、画像の情報を判別できます。しかもただ判別するのではなく、視覚的な情報に基づいて推論までしてくれるのです。

先の動画だと、サドルを下げるためのレバーの位置や、どの工具を使うと良いのかを判断してくれていたのが該当します。

他にも以下の情報判別も可能です。

  • 着用している服装から結婚式の画像だと判断数
  • 部屋のレイアウトから気候や家主の特徴を判断する
  • 写っている人物の感情を読み取る

スマホがあれば、更に使い勝手が向上します。例えばスマホの写真を描画ツールを使って特定の部分だけを強調した場合でも、しっかり読み取ってくれます。

画像に対するコメントや解説などのテキスト生成も可能なので、使い勝手が大きく広がるでしょう。

音声で対話できる

GPT-4Vはスマホ版限定にはなりますが、音声での対話も可能です。OpenAIの「Whisper」というシステムを使って処理しています。

使い方も簡単で、以下の手順で進めるだけです。

  1. スマホの設定を起動する
  2. 「New Features」セクションで音声会話をオンにする

音声認識は英語をはじめ日本語にも対応しているため、安心して使えますね。

音声をテキストに変換してくれる機能もあるため、マイクなどの音声入力デバイスからチャットに参加できます。

手が離せない場合でもGPT-4Vを使える、スマホならではの機能と言えるでしょう。

多言語の入力/出力ができる

GPT-4Vは、多言語の入出力が可能です。画像の中に挿入されている言語を、その言語で出力してくれます。崩れたフォントであっても正確に出力してくれるため、デザイン面で大きく活用できるでしょう。

また、出力関係では以下の機能も搭載されてます。

  • 音声合成
  • 音声生成

音声合成を使用すれば、スピーカーからチャットの内容を聞けます。日本語や英語など複数の言語に対応しているため、運転中であってもチャットで会話できるなんてことも可能です。

また、音声生成を使用すれば、画像やテキストに対して音声で返答してくれます。この機能を利用して、AI同士で会話をさせている人もいるほどです。以下にリンクを貼っておきます。

https://x.com/masahirochaen/status/1707578867895115876?s=20

このように、AIにとって革新的な性能となっているのが、GPT-4Vなのです。

GPT-4Vの導入方法

GPT-4Vの導入方法は簡単です。既にGPT-4に登録している方ならば、簡単な操作で導入できます。以下の手順で進めましょう。

  1. ChatGPTにログイン
  2. 「GPT-4」→「Default」の設定を「ON」にする

これだけでOKです。

一方、「ChatGPT Plus」に加入していない方は、月額20ドルを支払って有料会員になる必要があります

会員にさえなれば、上記の方法でGPT-4Vを使用できます。気になる方は、お試しで1ヶ月使ってみてくださいね。

GPT-4Vと他のモデルとの違い

GPT-4Vを利用するにあたって、気になるのが他のモデルとの違いです。どのように違うのか、以下に分けて見ていきましょう。

  • GPT-3との違い
  • GPT-4との違い

GPT-4VとGPT-3.5の違い

GPT-4VはGPT-3.5と比較して、より高度な自然言語処理能力を持っています。GPT-4の頃から大きな違いとして注目されていましたが、GPT-4Vになっても同じです。

特にスムーズな日本語が欲しい際に活用でき、ブログやライティングなど様々な場面で活用されています。

また、画像解析にも対応していることから、GPT-3.5と比べてより幅広い分野での利用を見込めるでしょう。

GPT-4VとGPT-4の違い

GPT-4VとGPT-4の違いは、画像と音声の処理ができるかどうかです。極端な話、使わないのであればGPT-4Vにする必要はありません。

ただ、使用用途が大幅に広がることは間違いないため、既にGPT-4を利用しているのであればGPT-4Vにした方が良いでしょう。

思いも寄らない場面で役立ってくれる可能性があります。

GPT-4Vの使用例

GPT-4Vは、導入されてまだそれほど経過していませんが、既に多くの使い方をされています。中でも画像認識機能を使ったものが多く、以下の使用例があります。

  1. 画像からサンプルコードを生成する
  2. 画像の内容を説明させる
  3. インテリアの改善案
  4. 画像の文章を要約する
  5. 画像から位置情報を特定する
  6. 画像内のアイテム用途を説明させる
  7. 教科書などの画像を解説させる
  8. 画像内の文章を翻訳させる
  9. チャートを分析させる
  10. 手書きの文字や図を読み取る

エンジニアにとって嬉しいのは、1のサンプルコード生成です。JavaやPythonなど様々な言語でコードを生成できます。もちろん、新しいコードも生成可能です。

アップした画像からSaaS開発などで活かせるコードすら生成できます。全体像をGPT-4Vに任せて、細かい部分を修正する、なんて開発もできるでしょう。

ビジネスに活かすことで、更なる業務効率化に期待できる機能だと言えます。

GPT-4Vは画像解析機能と音声出力機能が追加されたGPT-4

GPT-4Vは、ChatGPT-4に画像と音声の機能を追加したマイモーダルAIです。画像の情報を正確に判断できることから、より使いやすくなっていると言えます。スマホを使えば音声での対話も可能です。

既にGPT-4を使っているのであれば、設定を変更するだけですぐに使えます。画像から自動でコードを生成してくれるといった、エンジニアにとって業務効率化に繋がる使い方もできます。

ChatGPTが気になっている方は、この機会に1度GPT-4Vに触れてみましょう。

エンベーダー編集部

エンベーダーは、ITスクールRareTECHのインフラ学習教材として誕生しました。 「遊びながらインフラエンジニアへ」をコンセプトに、インフラへの学習ハードルを下げるツールとして運営されています。

RareTECH 無料体験授業開催中! オンラインにて実施中! Top10%のエンジニアになる秘訣を伝授します! RareTECH講師への質疑応答可

関連記事