4月に、LMSYSのチャットボットアリーナで「im-also-a-good-gpt2-chatbot」がトップジェネレーティブAIのリーダーボードに登場しました。
同じAIモデルがGPT-4oとして公開されました。名前の中の「GPT2」は、OpenAIの以前のAIモデル「GPT-2」を示すものではありません。逆に、それはGPTモデルの新しいアーキテクチャを示し、「2」はモデルの設計に大きな変更があったことを示唆しています。
OpenAIのエンジニアリングチームは、それを新しいバージョン番号で命名するほどの大きな変化と考えています。それでも、マーケティングチームはそれをGPT-4の継続と控えめに表現し、完全な刷新ではないとしています。
GPT-4の新機能、提供内容、ビジネスでの活用方法を見てみましょう。
GPT-4oは、OpenAIの最新のフラッグシップ生成AIモデルです。GPT-4oの「O」はラテン語で「すべて」を意味する「Omni」の略であり、テキスト、音声、動画の処理能力の向上を補完しています。
これにより、ユーザーがAIとより簡単に対話できるようになりました。OpenAIの以前の生成AIモデルは、モデルをより知的にすることに焦点を当てていました。GPT-4oは、使いやすさと応答速度を大幅に向上させています。
GPT-4o搭載のChatGPTに質問をし、回答中に割り込むことも可能です。モデルは割り込みに耳を傾け、リアルタイムで入力に基づいて応答を再構築します。声のニュアンスを捉え、歌唱を含むさまざまな感情豊かな声出力を生成できます。
OpenAIのCTOは、「GPT-4oは音声、テキスト、ビジョンを横断して推論します。これは非常に重要です。なぜなら、私たちは人間と機械の未来のインタラクションを見ているからです。」と述べています。
以下は、GPT-4oの主要なハイライトです。
知っていましたか?GPT-4oを活用して、あなたのウェブサイトの販売力を向上させることができます。GPT-4oを販売エージェントとして使う方法.
企業における生成AIのポリシーはまだ初期段階です。欧州連合の法案が唯一の重要な法的枠組みです。安全なAIとは何かについては、自分で判断する必要があります。
OpenAIは、モデルを公開するかどうかを判断するために準備フレームワークを活用しています。サイバーセキュリティ、生物化学的、放射線、核の脅威の可能性、説得力、モデルの自律性をテストします。モデルのスコアは、いずれかのカテゴリーで最も高い評価(低、中、高、クリティカル)を受けたものです。
GPT-4oは中程度の懸念を持ち、人類文明を崩壊させる可能性のある最高リスクレベルを回避しています。
すべての生成AIと同様に、GPT-4oは必ずしも意図した通りに動作しないことがあります。ただし、以前のモデルと比較して大きな改善を示しています。ディープフェイクの詐欺電話などのリスクもあります。これらのリスクを軽減するために、音声出力はプリセットの声のみ利用可能です。
GPT-4oは、入力内容を分析するためのより優れた画像とテキストの機能を提供します。以前のモデルと比べて、「Tシャツのブランドは何か?」のような複雑な質問により良く答えることができます。例えば、このモデルは異なる言語のメニューを見て翻訳することも可能です。
将来のモデルは、スポーツイベントを観戦し、そのルールを説明するなど、はるかに高度な機能を提供する予定です。
OpenAIの他の生成AIモデルと比較した場合のGPT-4oの変更点は次のとおりです。
以前のOpenAIシステムは、Whisper、GPT-4 Turbo、Text-to-Speechを推論エンジンとパイプラインで結びつけていました。これらは話された言葉にのみアクセスでき、声のトーンや背景ノイズ、多人数の声の音を除外していました。これにより、GPT-4 Turboの感情や話し方のスタイルの表現能力が制限されていました。
GPT-4oでは、単一のモデルがテキストと音声の両方を推論します。これにより、背景にあるトーンや音声情報により敏感になり、異なる話し方のスタイルで高品質な応答を生成します。
GPT-4oの平均音声モードの遅延は0.32秒です。これはGPT-3.5の平均2.8秒の9倍、GPT-4の平均5.4秒の17倍の速度です。
人間の平均応答時間は0.21秒です。したがって、GPT-4oの応答時間は人間に近く、リアルタイムの音声翻訳に適しています。
トークンは、モデルが理解できるテキストの単位です。大規模言語モデル(LLM)を扱うとき、プロンプトのテキストは最初にトークンに変換されます。英語で書くと、3語でほぼ4トークンになります。
言語を表すのに必要なトークン数が少なければ少ないほど、計算が少なくて済み、テキスト生成の速度が向上します。さらに、APIの料金も入力または出力のトークンごとに課金されるため、コストも削減されます。
GPT-4oでは、ヒンディー語、マラーティー語、タミル語、テルグ語、グジャラート語などのインド語が特に恩恵を受け、トークン数が削減されています。アラビア語は2倍の削減を示し、東アジア言語では1.4倍から1.7倍の削減が見られます。
GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5がGPT-4oと比較される主要な候補です。Llama 3 400Bは将来的に候補になる可能性がありますが、まだ完成していません。
以下は、異なるパラメータに基づくGPT-4oと前述のモデルとの比較です。
GPT-4 TurboとGPT-4oを比較すると、パフォーマンスはわずか数パーセントポイントしか変動しません。ただし、これらのLLMベンチマークはAIのマルチモーダル問題に対する性能を比較していません。概念は新しく、テキスト、音声、映像を横断して推論するモデルの能力を測る方法はまだ模索中です。
GPT-4oの性能は印象的であり、多モーダル訓練の将来性を示しています。
GPT-4oはテキスト、音声、映像を横断して効果的に推論できます。これにより、さまざまな用途に適しています。例えば:
GTP-4oは、まるで人間と会話するかのようにあなたと対話できます。タイピングにかかる時間を減らし、会話をより自然にします。迅速かつ正確な情報を提供します。
より高速で映像・音声の能力を備え、Open AIは世界の見方を用いたリアルタイムの利用例をいくつか提示しています。これにより、ナビゲーション、翻訳、ガイド付き指示、複雑な視覚情報の理解などの機会が広がります。
例えば、GPT-4oはデスクトップ、モバイル、将来的にはウェアラブルデバイスでも動作可能です。質問をする際にビジュアルやデスクトップ画面を見せることで、タイピングや異なるモデルや画面の切り替えを避けることができます。
一方、GPT-4oはカメラからの映像入力を理解し、シーンを口頭で説明する能力も非常に役立ちます。これは、視覚障害者にとってリアルな音声解説のように機能し、周囲の状況をより良く理解する手助けとなります。
GPT-4oはデバイスの入力をシームレスに接続し、モデルとの対話を容易にします。統合されたモダリティと向上した性能により、企業はカスタムビジョンアプリケーションの構築に利用できます。
オープンソースモデルが利用できない場合に使用し、コスト削減のために追加のステップとしてカスタムモデルに切り替えることも可能です。
GPT-4oは性能と速度を向上させます。専門知識ユーザーがGPT-4o搭載のAIセールスエージェントをウェブサイトに導入できるようにします。現在、これによりウェブサイトの訪問者は複雑な質問に答え、リードを獲得し、会議を予約することがより迅速に行えます。
とともにExpertise AIこれらのエージェントは、非常に複雑な訪問者の質問に答えるよう訓練できます。将来的には、ExpertiseはGPT-4oの能力を活用し、テキスト、映像、音声を横断して推論し、複数のメディアフォーマットでAIセールスエージェントを訓練する可能性があります。
それまでは、あなたのウェブサイトの訪問者は、販売員とつながる前にExpertiseのAIセールスエージェントから必要な支援を受けることができます。
試す Expertise AI とともに、あなたの訪問者はGPT-4oの質問回答速度を体験できます。