DXコラム > ノウハウ記事 > ChatGPT > 【2024年5月版】OpenAIの最新モデルGPT-4oとは?話題の新機能も注目

【2024年5月版】OpenAIの最新モデルGPT-4oとは?話題の新機能も注目

成長著しい生成AIの分野で、高い知名度を誇るGPTシリーズ。その最新モデルが2024年5月に発表された「GPT-4o」です。この記事ではさまざまなニュースメディアから、GPT-4oについて取り上げた記事を紹介していきます。

ChatGPT活用の企業向け生成AIサービス【無料トライアル受付中】
exaBase 生成AI の資料をダウンロード

GPT-4oとは

最初に「GPT-4o」とはどのようなものか、従来のGPTシリーズとの対比を含め簡単に紹介します。

比較項目/モデル GPT-4o GPT-4 Turbo GPT-4
リリース日 2024年5月13日 2023年11月 2023年3月14日
コンテキストウィンドウ 128,000トークン 128,000トークン 8,192トークン
32,000トークン(GPT-4-32K)
データソース 2023年10月 2023年4月 2021年9月
入出力の方法 テキスト、画像、オーディオ(完全マルチモーダル対応) テキスト、画像(4より強化) テキスト、限定的な画像処理
ビジョン機能 高度なビジョンとオーディオ機能 強化、DALL-E 3を使用した画像生成を含む 画像処理能力は不完全
利用料金 無料
(10回程度の回数制限あり)
月20ドル 月20ドル

APIの利用料金は以下となります。GPT-4oは従来のGPT-4 Turboと比較すると、入力と出力ともに半分の金額になっていることがわかります。

モデル名 入力 出力
GPT-4o 5ドル / 1M tokens 15ドル / 1M tokens
GPT-4 Turbo 105ドル / 1M tokens 30ドル / 1M tokens

参考:
Reddit「Direct speed comparison between gpt-4 and gpt-4o. Side by side started with same image prompt .」
Open AI Community「GPT-4 vs GPT-4o? Which is the better?」

まず、GPT(Generative Pre-trained Transformer)とは、OpenAIが開発した自然言語処理モデルのシリーズのこと。大量のテキストデータを学習させることで、人間が書いたような自然な文章を生成したり、質問に答えたり、翻訳したりできるのが特徴です。

GPTシリーズは2018年のGPT-1から始まり、GPT-2、GPT-3、GPT-3.5、そして最新のGPT-4と進化を続けています。バージョンが新しくなるたびにモデルの規模や性能が向上し、より高度な自然言語処理が可能になりました。

米国時間の2024年5月13日に発表されたGPT-4o(GPT-4オムニ)は、GPTシリーズの最新モデルです。これまでChatGPT(GPT-3.5)を超える高性能モデルとされてきた、GPT-4と同等のインテリジェンスを持ちながら、さらにパフォーマンスの向上や機能の追加・強化が図られています。

ここからはニュース記事などを通して、GPT-4oの特徴やサービスの内容を押さえていきましょう。

ChatGPT活用の企業向け生成AIサービス【無料トライアル受付中】
exaBase 生成AI の資料をダウンロード

音声の反応速度が大幅に向上した

2024年5月13日(米国時間)、OpenAIの最新モデル「GPT-4o」が発表されました。NHKニュースによれば、「GPT-4oの特徴は従来モデルより処理スピードが向上」しているほか、「文字、画像、音声による認識能力が大きく向上している」ということです。

GPT-4、GPT-4 Turboまでは、テキストや画像による入出力まででしたが、GPT-4oから音声による入出力が可能となりました。とくに注目すべき点は、音声の反応速度です。NHKが取り上げたニュース内では、「人間との対話はもちろん、異なる原語で話す人間の間に入って逐次通訳をする様子」を公開しており、このことから、極めて自然な会話が可能になっていることがわかります。

これまでも、英会話のトレーニングにChatGPTが用いられることもありましたが、文法のチェックなど、利用範囲は限定的でした。

しかし、今回の発表をみると、今後は相互に会話しながら文法チェックなどのトレーニングまでできることがわかります。音声の反応速度が飛躍的に向上したことで、生成AI活用の可能性がさらに広がるでしょう。

参考:NHK「オープンAI 最新モデル「GPT-4o」発表 音声の反応速度向上」

ヒトの反応速度で会話できるレベルに

GPT-4oは、従来と比べて処理スピードが2倍になっただけでなく、運用コストを半減することに成功しています。

日経新聞によると、「認識音声に対する反応速度は最速で0.000232ミリ秒、平均0.000320ミリ秒になった」と発表していることから、これまで以上に、限りなくヒトと同等の「自然な会話」が可能になったということができます。

GPT-4oは文字、画像、音声の入出力が可能となり、日本語を含む約50の言語に対応しています。

そのため、ちょっとした日常会話をすることはもちろんのこと、多言語でも同時通訳をすることも可能です。さらに、Open AIによる発表イベントで行われたデモンストレーションでは「子供を寝かしつける際に劇画調で、歌いながら物語を読み聞かせる」などの様子が披露されていました。日常生活だけでなく、教育やビジネスシーンなど様々な活用が可能となると期待できます。

参考:日本経済新聞「ChatGPTを2倍高速に 米OpenAI、ヒトの反応速度で会話」

無料版も大幅に機能強化されている

ZDNET Japanによると、これまでGPT-3.5しか利用できなかった無料ユーザーにも、GPT-4レベルのインテリジェンスが提供されることがわかっています。

ChatGPT4、Turboはこれまで有料ユーザーのみしか利用できませんでした。しかし、今回のGPT-4oのリリースタイミングで無料ユーザーも、これまでChatGPT Plusユーザーのみが利用できた「GPTs」や「GPT Store」などの機能を扱うことが可能になりました。

ただし、無料ユーザーが利用できるGPT-4oの容量には、制限があるとのことです。目安として、無料ユーザーが利用できるのは有料ユーザー(ChatGPT Plus)の5分の1までとなっており、その容量を超えるとGPT-3.5に戻るため、継続して利用する場合は有料ユーザーになる方が良いでしょう。

参考:ZDNET Japan「OpenAI、新たな生成AIモデル「GPT-4o」を発表–無料版も大幅に機能強化」

一方で有料版がおすすめな理由も

ChatGPT Plusの月額は20ドルです。これまで、GPT-4やMemory機能、ウェブブラウジング機能などが提供されていたのは有料ユーザーのみでしたが、現在は無料ユーザーも最新モデルのGPT-4oを試すことができます。

ただし、有料ユーザーは無料ユーザーの5倍のプロンプトを送信でき、最高の性能を持つ生成AIを「使い込む」ことができます。

参考:
WIRED「「GPT-4o」で進化したChatGPTを、今後も有料版で使い続けるべき理由」
Open AI 「Hello GPT-4o」

まるで「目を手に入れたAI」の実力

GPT-4oの「o」は、Omnimodelの頭文字。これはマルチモーダル機能が強化された「全方位モデル」であることを意味しています。TECH INSIDERによると、「インテリジェンス(言語モデルの知能)は従来のGPT-4相当」とのことです。そのため、4oは音声や画像処理が可能となったことで、ユーザーが写真や音声で命令したり、分析をしたりと、これまでにない使い方が可能となりました。

しかし、こうしたAIの音声処理の向上はChatGPTに限らず、日進月歩の進化を遂げています。

例えば、5/2時点でGoogleが提供するGeminiアプリも、ChatGPTに引けを取らない機能を有しており、日本語を含む多言語に対応しています。

Open AIに限らず、AIテック各社が今後どのような機能や活用を発表していくのか、注目が集まっています。

参考:TECH INSIDER「OpenAIの「GPT-4o」はまるで「目を手に入れたAI」。ChatGPT無料版でも利用可能に」

「GPT-4o」3つの進化のポイントとは

GPT-4oが従来モデルから大きく進化したポイントとして、東洋経済ONLINEでは主に以下の3点にまとめている。

  • より自然な会話ができるようになった
  • マルチモーダル機能が強化された
  • 感情表現ができるようになった

特に注目すべきは、3点目の感情表現についてです。従来のモデルと比較しても、人間との対話を通して相手の感情を読み取るだけでなく、それに応じた返答や対応が可能になっていることを確認できています。例えば、AIが子どもの勉強をアシスタントするデモンストレーションをみると、問題を間違えそうな時にただ指摘するのではなく、「惜しい」など、相手のモチベーションなどに考慮した助言を行う様子が公開されています。

しかし、AIが人の感情をより精密に理解し表現できることは、専門家の間で「擬人化(anthropomorphization)」とも呼ばれており、一長一短であることも指摘されています。

参考:東洋経済ONLINE「人間に近づいた「GPT-4o」3つの進化のポイント」

数学を教え「気を引くような」応答も

GPT-4oは処理速度の向上やマルチモーダル機能の実装によって、より人に近い感情の表現や回答などが可能となっています。

しかし、BBC NEWSよれば、現状では解決されていない課題も明らかになっていることを指摘しています。たとえば、4oのデモンストレーションでは、従来のChat-GPTや他の生成AIで問題とされてきた「ハルシネーション」がまだ解決されていないことが明らかになっています。

しかし、こうしたハルシネーションの根絶は非常に困難であると多くの専門家が指摘しています。対策としても、出力される情報を別のLLMにチェックさせる、または、LLMのバージョンアップごとに評価項目を適切に設けるといったことが、今後の進化に伴った有効な方法といわれています。

参考:BBC NEWS JAPAN「数学を教え「気を引くような」応答も 米オープンAI、最新「GPT-4o」発表」

まとめ

生成AIが大きな注目を集めるきっかけとなったGPTシリーズ。第三次AIブーム以降、個人から企業まで一般的な活用が可能となり、GPTシリーズ以外にも様々な生成AIが登場し進化を続けています。今回リリースされたGPT-4oは、これまで以上に画像やオーディオ等の処理が向上し、より生成AIの利活用が飛躍的に進むことが予想されます。

さらに、Gemini 1.5 proなどその他のモデルも同様に飛躍的な進化を遂げており、GPT-4oにも劣らない品質や処理速度を誇っています。日々進化を遂げる生成AIを利活用するためには、その動向をいち早くつかみ、活用の方法を模索する必要があるでしょう。

株式会社エクサウィザーズでは、日進月歩で進化する生成AIの可能性と活用について、業界でいち早く取り組みながら、AIを活用した経営課題の解決を支援しています。

生成AIの活用や社内人材の育成、AIを活用したDX推進などにご興味のある方はぜひ当社までご相談ください。

ChatGPT活用の企業向け生成AIサービス【無料トライアル受付中】
exaBase 生成AI の資料をダウンロード