En avril, l'Arène des Chatbots de LMSYS a vu « im-also-a-good-gpt2-chatbot » en tête de son classement pour les IA génératives les plus performantes.
Le même modèle d'IA a été révélé comme étant GPT-4o. Le « GPT2 » dans le nom n'indique pas l'ancien modèle d'IA d'Open AI, « GPT-2 ». Au contraire, il indique une nouvelle architecture pour les modèles GPT, et le « 2 » suggère un changement majeur dans la conception du modèle.
Les équipes d'ingénierie d'Open AI considèrent qu'il s'agit d'un changement important justifiant de le nommer avec un nouveau numéro de version. Cependant, les équipes marketing le présentent modestement comme une continuation de GPT-4 plutôt qu'une refonte complète.
Examinons ce qui est nouveau dans GPT-4, ce qu'il offre, et comment l'utiliser dans une entreprise.
GPT-4o est le dernier modèle d'IA générative phare d'Open AI. Le « O » dans GPT-4o signifie « Omni », ce qui veut dire « tout » en latin. Cela complète les capacités améliorées du modèle pour gérer le texte, la parole et la vidéo.
Il facilite l'interaction des utilisateurs avec l'IA. Les versions précédentes des modèles d'IA générative d'Open AI visaient à rendre le modèle plus intelligent. GPT-4o le rend plus simple à utiliser et beaucoup plus rapide à répondre.
Vous pouvez poser des questions à ChatGPT alimenté par GPT-4o et l'interrompre pendant qu'il répond. Le modèle écoutera lorsque vous interrompez et reformulera la réponse en temps réel en fonction de l'entrée donnée. Il peut percevoir des nuances dans la voix d’un utilisateur et générer différentes sorties vocales émotionnelles, y compris le chant.
Le CTO d'OpenAI déclare : « GPT-4o raisonne à travers la voix, le texte et la vision. C'est incroyablement important car nous regardons vers l'avenir de l'interaction entre humains et machines. »
Voici quelques-uns des points forts de GPT-4o.
Le saviez-vous ? Vous pouvez exploiter GPT-4o pour doter votre site web d'une meilleure capacité de vente. Découvrez comment utiliser GPT-4o comme agent de vente.
Les politiques d'IA générative dans les entreprises en sont encore à leurs débuts. La loi de l'Union européenne est le seul cadre juridique important. Vous devez prendre votre propre décision sur ce qui constitue une IA sûre.
OpenAI utilise un cadre de préparation pour décider si un modèle peut être publié au public. Il teste le modèle pour la cybersécurité, les menaces biologiques, chimiques, radiologiques ou nucléaires potentielles, la capacité de persuasion et l'autonomie du modèle. La note du modèle est la meilleure note (Faible, Moyenne, Élevée ou Critique) qu'il reçoit dans n'importe quelle catégorie.
GPT-4o présente un niveau de préoccupation moyen et évite le niveau de risque le plus élevé qui pourrait bouleverser la civilisation humaine.
Comme toutes les IA génératives, GPT-4o pourrait ne pas toujours se comporter exactement comme vous l'avez prévu. Cependant, par rapport aux modèles précédents, GPT-4o montre des améliorations significatives. Il peut présenter certains risques comme des appels frauduleux deepfake. Pour atténuer ces risques, la sortie audio n'est disponible qu'avec des voix prédéfinies.
GPT-4o offre de meilleures capacités d'images et de texte pour analyser le contenu de l'entrée. Par rapport aux modèles précédents, GPT-4o est meilleur pour répondre à des questions complexes comme, « Quelle est la marque du T-shirt que porte une personne ? » Par exemple, ce modèle peut regarder un menu dans une langue différente et le traduire.
Les futurs modèles offriront des capacités beaucoup plus avancées, comme regarder un événement sportif et expliquer ses règles.
Voici ce qui a changé dans GPT-4o par rapport aux autres modèles d'IA générative d'Open AI.
Les systèmes précédents d'OpenAI combinaient Whisper, GPT-4 Turbo et Text-to-Speech dans un pipeline avec un moteur de raisonnement. Ils n'avaient accès qu'aux mots parlés et excluaient le ton de la voix, les bruits de fond et les sons de plusieurs intervenants. Cela limitait la capacité de GPT-4 Turbo à exprimer différentes émotions ou styles de parole.
Avec GPT-4o, un seul modèle raisonne à travers le texte et l'audio. Cela rend le modèle plus sensible au ton et aux informations audio disponibles en arrière-plan, générant des réponses de meilleure qualité avec différents styles de parole.
La latence moyenne du mode vocal de GPT-4o est de 0,32 seconde. C'est neuf fois plus rapide que la moyenne de GPT-3.5, qui est de 2,8 secondes, et 17 fois plus rapide que la moyenne de GPT-4, qui est de 5,4 secondes.
Le temps de réponse moyen d'un humain est de 0,21 seconde. Par conséquent, le temps de réponse de GPT-4o est plus proche de celui d'un humain. Il le rend adapté à la traduction en temps réel de la parole.
Les tokens sont des unités de texte qu'un modèle peut comprendre. Lorsque vous travaillez avec un grand modèle de langage (LLM), le texte de l'invite est d'abord converti en tokens. Lorsque vous écrivez en anglais, trois mots prennent près de quatre tokens.
Si moins de tokens sont nécessaires pour représenter une langue, moins de calculs doivent être effectués, et la vitesse de génération du texte augmente. De plus, cela réduit le coût pour les utilisateurs de l'API car les charges ouvertes par entrée ou sortie de token sont appliquées.
Dans GPT-4o, des langues indiennes comme l'hindi, le marathi, le tamoul, le télougou, le gujarati, et d'autres ont bénéficié, notamment avec une réduction des tokens. L'arabe montre une réduction de 2x, tandis que les langues d'Asie de l'Est observent une réduction de 1,4x à 1,7x en tokens.
GPT 4 Turbo, Claude 3 Opus, et Gemini Pro 1.5 seraient les principaux concurrents à comparer avec GPT-4o. Llama 3 400B pourrait être un concurrent à l'avenir, mais il n'est pas encore terminé.
Voici une comparaison de GPT-4o avec les modèles mentionnés ci-dessus basée sur différents paramètres.
Les performances fluctuent seulement de quelques points de pourcentage lorsque vous comparez GPT-4 Turbo et GPT-4o. Cependant, ces benchmarks LLM ne comparent pas la performance de l’IA sur des problèmes multimodaux. Le concept est nouveau, et les méthodes pour mesurer la capacité d’un modèle à raisonner à travers le texte, l’audio et la vidéo sont encore à venir.
Les performances de GPT-4o sont impressionnantes et annoncent un avenir prometteur pour la formation multimodale.
GPT-4o peut raisonner efficacement à travers le texte, l’audio et la vidéo. Cela rend le modèle adapté à une variété de cas d’utilisation, par exemple :
GTP-4o peut maintenant interagir avec vous comme si vous conversiez avec des humains. Vous avez besoin de moins de temps pour taper, rendant la conversation plus naturelle. Il fournit des informations rapides et précises.
Avec plus de vitesse et des capacités audiovisuelles, Open AI présente plusieurs cas d’utilisation en temps réel où vous pouvez interagir avec l’IA en utilisant la vue du monde. Cela ouvre des opportunités pour la navigation, la traduction, les instructions guidées et la compréhension d’informations visuelles complexes.
Par exemple, GPT-4o peut fonctionner sur des ordinateurs de bureau, des mobiles, et potentiellement des wearables à l’avenir. Vous pouvez montrer un visuel ou un écran de bureau pour poser des questions plutôt que de taper ou de basculer entre différents modèles et écrans.
D’autre part, la capacité de GPT-4o à comprendre une entrée vidéo d’une caméra et à décrire verbalement la scène peut être extrêmement utile pour les personnes malvoyantes. Cela fonctionnerait comme une fonction de description audio pour la vie réelle, les aidant à mieux comprendre leur environnement.
GPT-4o connecte vos entrées d’appareil de manière transparente, facilitant l’interaction avec le modèle. Avec des modalités intégrées et de meilleures performances, les entreprises peuvent l’utiliser pour créer des applications de vision personnalisées.
Vous pouvez l’utiliser là où les modèles open-source ne sont pas disponibles et passer à des modèles personnalisés pour réduire les coûts.
GPT-4o améliore la performance et la vitesse.Expertise permet aux utilisateurs d’intégrer un agent commercial IA alimenté par GPT-4o dans un site web. Actuellement, il permet à vos visiteurs de répondre à des questions complexes, de capturer des prospects et de réserver des réunions plus rapidement.
Avec Expertise AI , vous pouvez former ces agents pour répondre à des questions très complexes des visiteurs. À l’avenir, Expertise pourrait exploiter les capacités de GPT-4o pour raisonner à travers le texte, la vidéo et l’audio afin de former des agents commerciaux IA sur plusieurs formats médiatiques.
D’ici là, laissez vos visiteurs obtenir l’aide dont ils ont besoin grâce aux agents commerciaux IA d’Expertise avant qu’ils n’atteignent le stade de contacter un commercial.
Essayez Expertise AI et laissez vos visiteurs expérimenter la rapidité de GPT-4o pour répondre à des questions concernant vos produits ou services.