Qu'est-ce que GPT-4o ? Explorer ses cas d'utilisation en entreprise

En avril, l'Arène des Chatbots de LMSYS a vu « im-also-a-good-gpt2-chatbot » en tête de son classement pour les IA génératives les plus performantes.

Le même modèle d'IA a été révélé comme étant GPT-4o. Le « GPT2 » dans le nom n'indique pas l'ancien modèle d'IA d'Open AI, « GPT-2 ». Au contraire, il indique une nouvelle architecture pour les modèles GPT, et le « 2 » suggère un changement majeur dans la conception du modèle.

Les équipes d'ingénierie d'Open AI considèrent qu'il s'agit d'un changement important justifiant de le nommer avec un nouveau numéro de version. Cependant, les équipes marketing le présentent modestement comme une continuation de GPT-4 plutôt qu'une refonte complète.

Examinons ce qui est nouveau dans GPT-4, ce qu'il offre, et comment l'utiliser dans une entreprise.

Qu'est-ce que GPT-4o ?

GPT-4o est le dernier modèle d'IA générative phare d'Open AI. Le « O » dans GPT-4o signifie « Omni », ce qui veut dire « tout » en latin. Cela complète les capacités améliorées du modèle pour gérer le texte, la parole et la vidéo.

Il facilite l'interaction des utilisateurs avec l'IA. Les versions précédentes des modèles d'IA générative d'Open AI visaient à rendre le modèle plus intelligent. GPT-4o le rend plus simple à utiliser et beaucoup plus rapide à répondre.

Vous pouvez poser des questions à ChatGPT alimenté par GPT-4o et l'interrompre pendant qu'il répond. Le modèle écoutera lorsque vous interrompez et reformulera la réponse en temps réel en fonction de l'entrée donnée. Il peut percevoir des nuances dans la voix d’un utilisateur et générer différentes sorties vocales émotionnelles, y compris le chant.

Le CTO d'OpenAI déclare : « GPT-4o raisonne à travers la voix, le texte et la vision. C'est incroyablement important car nous regardons vers l'avenir de l'interaction entre humains et machines. »

Que propose GPT-4o ?

Voici quelques-uns des points forts de GPT-4o.

Expérience utilisateur améliorée. Les interactions avec l'IA sont devenues plus naturelles et faciles.
Capacités multilingues. GPT-4o affiche de meilleures performances dans une cinquantaine de langues. Il le rend plus accessible à l’échelle mondiale.
Performance améliorée. GPT-4o est environ deux fois plus rapide que GPT-4 Turbo. Il coûte la moitié du prix de sa version précédente tout en offrant des limites de taux plus élevées.
Capacités vocales renforcées. En raison du risque de mauvaise utilisation, les fonctionnalités vocales améliorées ne sont pas disponibles pour tous les clients, mais OpenAI a commencé à offrir un support à un petit groupe de partenaires de confiance.
Disponibilité de la version gratuite. GPT-4o est disponible dans la version gratuite de ChatGPT. Les abonnés à ChatGPT Plus ont des limites de messagerie cinq fois plus élevées. Si dans GPT-4o, les limites de taux sont atteintes, le modèle passe automatiquement à GPT-3.5.
Expérience utilisateur améliorée. Open AI propose un écran d'accueil plus conversationnel et une mise en page des messages sur le web. La version de bureau de ChatGPT avec GPT-4o pour macOS (déployée par phases aux utilisateurs de ChatGPT Plus) permet aux utilisateurs de poser des questions via un raccourci clavier. La version Windows de l'application sera disponible plus tard cette année.
Offre des conversations naturelles. Le modèle gère les interruptions tout en ajustant sa réponse et son ton en conséquence. Les conversations se déroulent à un rythme naturel. Cependant, il peut y avoir de brèves pauses où le modèle réfléchit à ses réponses.

Le saviez-vous ? Vous pouvez exploiter GPT-4o pour doter votre site web d'une meilleure capacité de vente. Découvrez comment utiliser GPT-4o comme agent de vente.

Risques et préoccupations liés à GPT-4o

Les politiques d'IA générative dans les entreprises en sont encore à leurs débuts. La loi de l'Union européenne est le seul cadre juridique important. Vous devez prendre votre propre décision sur ce qui constitue une IA sûre.

OpenAI utilise un cadre de préparation pour décider si un modèle peut être publié au public. Il teste le modèle pour la cybersécurité, les menaces biologiques, chimiques, radiologiques ou nucléaires potentielles, la capacité de persuasion et l'autonomie du modèle. La note du modèle est la meilleure note (Faible, Moyenne, Élevée ou Critique) qu'il reçoit dans n'importe quelle catégorie.

GPT-4o présente un niveau de préoccupation moyen et évite le niveau de risque le plus élevé qui pourrait bouleverser la civilisation humaine.

Comme toutes les IA génératives, GPT-4o pourrait ne pas toujours se comporter exactement comme vous l'avez prévu. Cependant, par rapport aux modèles précédents, GPT-4o montre des améliorations significatives. Il peut présenter certains risques comme des appels frauduleux deepfake. Pour atténuer ces risques, la sortie audio n'est disponible qu'avec des voix prédéfinies.

GPT-4o vs. modèles d'IA générative précédents d'Open AI

GPT-4o offre de meilleures capacités d'images et de texte pour analyser le contenu de l'entrée. Par rapport aux modèles précédents, GPT-4o est meilleur pour répondre à des questions complexes comme, « Quelle est la marque du T-shirt que porte une personne ? » Par exemple, ce modèle peut regarder un menu dans une langue différente et le traduire.

Les futurs modèles offriront des capacités beaucoup plus avancées, comme regarder un événement sportif et expliquer ses règles.

Voici ce qui a changé dans GPT-4o par rapport aux autres modèles d'IA générative d'Open AI.

Ton de la voix

Les systèmes précédents d'OpenAI combinaient Whisper, GPT-4 Turbo et Text-to-Speech dans un pipeline avec un moteur de raisonnement. Ils n'avaient accès qu'aux mots parlés et excluaient le ton de la voix, les bruits de fond et les sons de plusieurs intervenants. Cela limitait la capacité de GPT-4 Turbo à exprimer différentes émotions ou styles de parole.

Avec GPT-4o, un seul modèle raisonne à travers le texte et l'audio. Cela rend le modèle plus sensible au ton et aux informations audio disponibles en arrière-plan, générant des réponses de meilleure qualité avec différents styles de parole.

Faible latence

La latence moyenne du mode vocal de GPT-4o est de 0,32 seconde. C'est neuf fois plus rapide que la moyenne de GPT-3.5, qui est de 2,8 secondes, et 17 fois plus rapide que la moyenne de GPT-4, qui est de 5,4 secondes.

Le temps de réponse moyen d'un humain est de 0,21 seconde. Par conséquent, le temps de réponse de GPT-4o est plus proche de celui d'un humain. Il le rend adapté à la traduction en temps réel de la parole.

Meilleure tokenisation

Les tokens sont des unités de texte qu'un modèle peut comprendre. Lorsque vous travaillez avec un grand modèle de langage (LLM), le texte de l'invite est d'abord converti en tokens. Lorsque vous écrivez en anglais, trois mots prennent près de quatre tokens.

Si moins de tokens sont nécessaires pour représenter une langue, moins de calculs doivent être effectués, et la vitesse de génération du texte augmente. De plus, cela réduit le coût pour les utilisateurs de l'API car les charges ouvertes par entrée ou sortie de token sont appliquées.

Dans GPT-4o, des langues indiennes comme l'hindi, le marathi, le tamoul, le télougou, le gujarati, et d'autres ont bénéficié, notamment avec une réduction des tokens. L'arabe montre une réduction de 2x, tandis que les langues d'Asie de l'Est observent une réduction de 1,4x à 1,7x en tokens.

GPT-4o vs. autres modèles d'IA générative

GPT 4 Turbo, Claude 3 Opus, et Gemini Pro 1.5 seraient les principaux concurrents à comparer avec GPT-4o. Llama 3 400B pourrait être un concurrent à l'avenir, mais il n'est pas encore terminé.

Voici une comparaison de GPT-4o avec les modèles mentionnés ci-dessus basée sur différents paramètres.

Compréhension massive du langage multitâche (MMLU).Ce test inclut des tâches en mathématiques élémentaires, histoire des États-Unis, informatique, droit, et plus encore. Pour atteindre une grande précision, les modèles doivent posséder une connaissance approfondie du monde et une capacité de résolution de problèmes. GPT-4o performe mieux que d’autres modèles d’IA.
Questions-réponses de niveau universitaire, à l’épreuve de Google (GPQA).Les questions à choix multiple sont rédigées par des experts dans les domaines de la biologie, de la physique et de la chimie. Les questions sont de haute qualité et extrêmement difficiles : les experts titulaires ou en cours d’obtention d’un doctorat dans ces domaines atteignent 74 % de précision. GPT-4o offre de meilleures performances que d’autres modèles.
MATH.Problèmes de mathématiques pour le collège et le lycée. La performance de GPT-4o a été jugée meilleure que celle des autres modèles.
HumanEval.Il teste la correction fonctionnelle du code informatique utilisé pour vérifier la génération de code. La performance de GPT-4o a été meilleure que celle des autres modèles.
Mathématiques multilingues pour l’école primaire (MSGM).Les problèmes de mathématiques pour l’école primaire sont traduits en dix langues, y compris des langues sous-représentées comme le bengali et le swahili. Claude 3 Opus a mieux performé que GPT-4o dans MSGM.
Raisonnement discret sur des paragraphes (DROP). Questions nécessitant la compréhension de paragraphes complets, comme l’addition, le comptage ou le tri de valeurs, répartis sur plusieurs phrases. GPT-4 Turbo a mieux performé que GPT-4o dans DROP.

Les performances fluctuent seulement de quelques points de pourcentage lorsque vous comparez GPT-4 Turbo et GPT-4o. Cependant, ces benchmarks LLM ne comparent pas la performance de l’IA sur des problèmes multimodaux. Le concept est nouveau, et les méthodes pour mesurer la capacité d’un modèle à raisonner à travers le texte, l’audio et la vidéo sont encore à venir.

Les performances de GPT-4o sont impressionnantes et annoncent un avenir prometteur pour la formation multimodale.

Cas d’utilisation de GPT-4o

GPT-4o peut raisonner efficacement à travers le texte, l’audio et la vidéo. Cela rend le modèle adapté à une variété de cas d’utilisation, par exemple :

Vision par ordinateur en temps réel et interaction naturelle

GTP-4o peut maintenant interagir avec vous comme si vous conversiez avec des humains. Vous avez besoin de moins de temps pour taper, rendant la conversation plus naturelle. Il fournit des informations rapides et précises.

Avec plus de vitesse et des capacités audiovisuelles, Open AI présente plusieurs cas d’utilisation en temps réel où vous pouvez interagir avec l’IA en utilisant la vue du monde. Cela ouvre des opportunités pour la navigation, la traduction, les instructions guidées et la compréhension d’informations visuelles complexes.

Par exemple, GPT-4o peut fonctionner sur des ordinateurs de bureau, des mobiles, et potentiellement des wearables à l’avenir. Vous pouvez montrer un visuel ou un écran de bureau pour poser des questions plutôt que de taper ou de basculer entre différents modèles et écrans.

D’autre part, la capacité de GPT-4o à comprendre une entrée vidéo d’une caméra et à décrire verbalement la scène peut être extrêmement utile pour les personnes malvoyantes. Cela fonctionnerait comme une fonction de description audio pour la vie réelle, les aidant à mieux comprendre leur environnement.

Applications d’entreprise

GPT-4o connecte vos entrées d’appareil de manière transparente, facilitant l’interaction avec le modèle. Avec des modalités intégrées et de meilleures performances, les entreprises peuvent l’utiliser pour créer des applications de vision personnalisées.

Vous pouvez l’utiliser là où les modèles open-source ne sont pas disponibles et passer à des modèles personnalisés pour réduire les coûts.

Utilisez GPT-4o pour générer des prospects dans votre entreprise

GPT-4o améliore la performance et la vitesse.Expertise permet aux utilisateurs d’intégrer un agent commercial IA alimenté par GPT-4o dans un site web. Actuellement, il permet à vos visiteurs de répondre à des questions complexes, de capturer des prospects et de réserver des réunions plus rapidement.

Avec Expertise AI , vous pouvez former ces agents pour répondre à des questions très complexes des visiteurs. À l’avenir, Expertise pourrait exploiter les capacités de GPT-4o pour raisonner à travers le texte, la vidéo et l’audio afin de former des agents commerciaux IA sur plusieurs formats médiatiques.

D’ici là, laissez vos visiteurs obtenir l’aide dont ils ont besoin grâce aux agents commerciaux IA d’Expertise avant qu’ils n’atteignent le stade de contacter un commercial.

Essayez Expertise AI et laissez vos visiteurs expérimenter la rapidité de GPT-4o pour répondre à des questions concernant vos produits ou services.

‍