¿Qué es GPT-4o? Explorando sus casos de uso en un negocio

what-is-gpt-4o.jpg

En abril, la Arena de Chatbots de LMSYS vio a “im-also-a-good-gpt2-chatbot” en su tabla de clasificación como uno de los mejores IA generativos.

El mismo modelo de IA ha sido revelado como GPT-4o. El “GPT2” en el nombre no indica el modelo de IA anterior de Open AI, “GPT-2”. Por el contrario, indica una nueva arquitectura para los modelos GPT, y el “2” sugiere un cambio importante en el diseño del modelo.

Los equipos de ingeniería de Open AI consideran que es un cambio grande para justificar nombrarlo con un nuevo número de versión. Sin embargo, los equipos de marketing lo presentan modestamente como una continuación de GPT-4 en lugar de una renovación completa.

Veamos qué hay de nuevo en GPT-4, qué ofrece y cómo usarlo en un negocio.

¿Qué es GPT-4o?

GPT-4o es el último modelo de IA generativa insignia de Open AI. La “O” en GPT-4o significa “Omni”, que en latín significa “todo”. Esto complementa las capacidades mejoradas del modelo para manejar texto, habla y video.

Facilita la interacción de los usuarios con la IA. Las iteraciones anteriores de los modelos de IA generativa de Open AI buscaban hacer que el modelo fuera más inteligente. GPT-4o lo hace más sencillo de usar y mucho más rápido en responder.

Puedes hacer preguntas a ChatGPT impulsado por GPT-4o e interrumpirlo mientras responde. El modelo escuchará cuando interrumpas y reformulará la respuesta en tiempo real según la entrada dada. Puede captar matices en la voz del usuario y generar diferentes salidas de voz emotivas, incluyendo canto.

El CTO de OpenAI dice: “GPT-4o razona a través de la voz, el texto y la visión. Esto es increíblemente importante porque estamos mirando hacia el futuro de la interacción entre humanos y máquinas.”

¿Qué ofrece GPT-4o?

A continuación, algunos de los aspectos más destacados de GPT-4o.

  • Mejor experiencia de usuario.Las interacciones con la IA se han vuelto más naturales y fáciles.
  • Capacidades multilingües.GPT-4o muestra un mejor rendimiento en alrededor de 50 idiomas. Lo hace más accesible a nivel mundial.
  • Rendimiento mejorado.GPT-4o es aproximadamente dos veces más rápido que GPT-4 Turbo. Cuesta la mitad del precio de su versión anterior, ofreciendo límites de tasa más altos.
  • Capacidades mejoradas de voz. Debido al riesgo de uso indebido, las funciones de voz mejoradas no están disponibles para todos los clientes, pero OpenAI ha comenzado a ofrecer soporte para un pequeño grupo de socios confiables.
  • Disponibilidad de nivel gratuito.GPT-4o está disponible en el nivel gratuito para ChatGPT. Los suscriptores de ChatGPT Plus tienen límites de mensajes 5 veces mayores. Si en GPT-4o se alcanzan los límites de tasa, el modelo cambia automáticamente a GPT-3.5.
  • Mejor experiencia de usuario.Open AI ofrece una pantalla de inicio más conversacional y un diseño de mensajes en la web. La versión de escritorio de ChatGPT con GPT-4o para macOS (que se implementará en fases a los usuarios de ChatGPT Plus) permite a los usuarios hacer preguntas mediante un atajo de teclado. La versión para Windows de la aplicación llegará más adelante este año.
  • Ofrece conversaciones naturales.El modelo maneja interrupciones mientras ajusta su respuesta y tono en consecuencia. Las conversaciones ocurren a un ritmo natural. Sin embargo, puede haber breves pausas donde el modelo razona las respuestas.

¿Sabías?Puedes aprovechar GPT-4o para equipar tu sitio web y vender mejor y más rápido. Descubre cómo usar GPT-4o como agente de ventas.

Riesgos y preocupaciones con GPT-4o

Las políticas de IA generativa en las empresas todavía están en sus primeras etapas. La Ley de la Unión Europea es el único marco legal importante. Debes tomar tu propia decisión sobre qué constituye una IA segura.

OpenAI utiliza un marco de preparación para decidir si un modelo puede ser lanzado al público. Prueba el modelo en ciberseguridad, amenazas biológicas, químicas, radiológicas o nucleares potenciales, capacidad de persuasión y autonomía del modelo. La puntuación del modelo es la calificación más alta (Baja, Media, Alta o Crítica) que recibe en cualquier categoría.

GPT-4o tiene una preocupación media y evita el nivel de riesgo más alto que podría poner en peligro la civilización humana.

Como todas las IA generativas, GPT-4o puede no comportarse siempre exactamente como deseas. Sin embargo, en comparación con modelos anteriores, GPT-4o muestra mejoras significativas. Podría presentar algunos riesgos como llamadas de scam deepfake. Para mitigar estos riesgos, la salida de audio solo está disponible en voces preestablecidas.

GPT-4o frente a modelos anteriores de IA generativa de Open AI

GPT-4o ofrece mejores capacidades de imágenes y texto para analizar el contenido de la entrada. En comparación con modelos anteriores, GPT-4o es mejor respondiendo preguntas complejas como, “¿Cuál es la marca de la camiseta que lleva una persona?” Por ejemplo, este modelo puede mirar un menú en un idioma diferente y traducirlo.

Los modelos futuros ofrecerán capacidades mucho más avanzadas, como ver un evento deportivo y explicar sus reglas.

Esto es lo que cambió en GPT-4o en comparación con otros modelos de IA generativa de Open AI.

Tono de voz

Los sistemas anteriores de OpenAI combinaban Whisper, GPT-4 Turbo y Text-to-Speech en una línea de proceso con un motor de razonamiento. Solo tenían acceso a palabras habladas y descartaban el tono de voz, ruidos de fondo y sonidos de múltiples hablantes. Limitaba la capacidad de GPT-4 Turbo para expresar diferentes emociones o estilos de habla.

Con GPT-4o, un solo modelo razona a través de texto y audio. Esto hace que el modelo sea más receptivo al tono y la información de audio disponible en el fondo, generando respuestas de mayor calidad con diferentes estilos de habla.

Baja latencia

La latencia promedio del modo de voz de GPT-4o es de 0.32 segundos. Esto es nueve veces más rápido que el promedio de GPT-3.5, que es de 2.8 segundos, y 17 veces más rápido que el promedio de GPT-4, que es de 5.4 segundos.

El tiempo de respuesta promedio de un humano es de 0.21 segundos. Por lo tanto, el tiempo de respuesta de GPT-4o está más cerca del de un humano. Lo hace adecuado para traducción en tiempo real de habla.

Mejor tokenización

Los tokens son unidades de texto que un modelo puede entender. Cuando trabajas con un modelo de lenguaje grande (LLM), el texto del prompt primero se convierte en tokens. Cuando escribes en inglés, tres palabras toman cerca de cuatro tokens.

Si se necesitan menos tokens para representar un idioma, se deben hacer menos cálculos y la velocidad de generación de texto aumenta. Además, esto disminuye el precio para los usuarios de API, ya que se cobran por entrada o salida de tokens.

En GPT-4o, idiomas indios como hindi, maratí, tamil, telugu, gujarati y otros han mejorado, mostrando especialmente una reducción en los tokens. El árabe muestra una reducción de 2x, mientras que los idiomas del este de Asia observan una reducción de 1.4x a 1.7x en tokens.

GPT-4o frente a otros modelos de IA generativa

GPT 4 Turbo, Claude 3 Opus y Gemini Pro 1.5 serían los principales contendientes para comparar con GPT-4o. Llama 3 400B podría ser un contendiente en el futuro, pero aún no está terminado.

A continuación se presenta una comparación de GPT-4o con los modelos mencionados anteriormente basada en diferentes parámetros.

  • Comprensión Masiva Multitarea del Lenguaje (MMLU).Esta prueba incluye tareas de matemáticas elementales, historia de EE. UU., ciencias de la computación, derecho y más. Para alcanzar una alta precisión en esta prueba, los modelos deben poseer un amplio conocimiento del mundo y habilidades de resolución de problemas. GPT-4o tiene un rendimiento superior a otros modelos de IA.
  • Preguntas y respuestas a nivel de posgrado a prueba de Google (GPQA).Las preguntas de opción múltiple son elaboradas por expertos en biología, física y química. Las preguntas son de alta calidad y extremadamente difíciles: los expertos que tienen o están cursando doctorados en los dominios correspondientes alcanzan un 74% de precisión. GPT-4o ofrece un mejor rendimiento que otros modelos.
  • MATEMÁTICAS.Problemas de matemáticas de secundaria y preparatoria. Se encontró que el rendimiento de GPT-4o es mejor que el de otros modelos.
  • HumanEval.Evalúa la corrección funcional del código informático utilizado para verificar la generación de código. El rendimiento de GPT-4o fue mejor que el de otros modelos.
  • Matemáticas multilingües para escuela primaria (MSGM).Los problemas de matemáticas de escuela primaria se traducen a diez idiomas, incluyendo idiomas poco representados como bengalí y suajili. Claude 3 Opus tuvo un mejor desempeño que GPT-4o en MSGM.
  • Razonamiento discreto sobre párrafos (DROP).Preguntas que requieren comprender párrafos completos, como sumar, contar o ordenar valores, distribuidos en varias oraciones. GPT-4 Turbo tuvo un mejor rendimiento que GPT-4o en DROP.

El rendimiento fluctúa solo en unos pocos puntos porcentuales al comparar GPT-4 Turbo y GPT-4o. Sin embargo, estos benchmarks de LLM no comparan el rendimiento de la IA en problemas multimodales. El concepto es nuevo, y aún no existen formas de medir la capacidad de razonamiento de un modelo a través de texto, audio y video.

El rendimiento de GPT-4o es impresionante y muestra un futuro prometedor para el entrenamiento multimodal.

Casos de uso de GPT-4o

GPT-4o puede razonar eficazmente a través de texto, audio y video. Esto hace que el modelo sea adecuado para una variedad de casos de uso, por ejemplo:

Visión por computadora en tiempo real e interacción natural

GTP-4o ahora puede interactuar contigo como si conversaras con humanos. Necesitas dedicar menos tiempo a escribir, haciendo la conversación más natural. Ofrece información rápida y precisa.

Con más velocidad y capacidades audiovisuales, Open AI presenta varios casos de uso en tiempo real donde puedes interactuar con la IA usando la vista del mundo. Esto abre oportunidades para navegación, traducción, instrucciones guiadas y comprensión de información visual compleja.

Por ejemplo, GPT-4o puede funcionar en escritorios, móviles y potencialmente en dispositivos vestibles en el futuro. Puedes mostrar una imagen o pantalla de escritorio para hacer preguntas en lugar de escribir o cambiar entre diferentes modelos y pantallas.

Por otro lado, la capacidad de GPT-4o para entender entrada de video desde una cámara y describir verbalmente la escena puede ser increíblemente útil para personas con discapacidad visual. Funcionaría como una función de descripción de audio para la vida real, ayudándolas a entender mejor su entorno.

Aplicaciones empresariales

GPT-4o conecta las entradas de tus dispositivos de manera fluida, facilitando la interacción con el modelo. Con modalidades integradas y mejor rendimiento, las empresas pueden usarlo para construir aplicaciones de visión personalizadas.

Puedes usarlo donde no estén disponibles modelos de código abierto y cambiar a modelos personalizados para pasos adicionales que reduzcan costos.

Utiliza GPT-4o para generar clientes potenciales en tu negocio

GPT-4o mejora el rendimiento y la velocidad.Experiencia permite a los usuarios integrar un agente de ventas de IA impulsado por GPT-4o en un sitio web. Actualmente, permite a los visitantes de tu sitio responder preguntas complejas, captar clientes potenciales y reservar reuniones más rápidamente.

Con IA de experiencia, puedes entrenar a estos agentes para responder preguntas altamente complejas de los visitantes. En el futuro, la experiencia podría aprovechar las capacidades de GPT-4o para razonar a través de texto, video y audio y entrenar agentes de ventas de IA en múltiples formatos de medios.

Hasta entonces, deja que los visitantes de tu sitio obtengan la ayuda que necesitan de los agentes de ventas de IA de Expertise antes de llegar a la etapa de conectarse con un vendedor.

Prueba IA de experiencia y permite que tus visitantes experimenten la velocidad de GPT-4o en la respuesta a preguntas relacionadas con tus productos o servicios.