En abril, la Arena de Chatbots de LMSYS vio a “im-also-a-good-gpt2-chatbot” en su tabla de clasificación como uno de los mejores IA generativos.
El mismo modelo de IA ha sido revelado como GPT-4o. El “GPT2” en el nombre no indica el modelo de IA anterior de Open AI, “GPT-2”. Por el contrario, indica una nueva arquitectura para los modelos GPT, y el “2” sugiere un cambio importante en el diseño del modelo.
Los equipos de ingeniería de Open AI consideran que es un cambio grande para justificar nombrarlo con un nuevo número de versión. Sin embargo, los equipos de marketing lo presentan modestamente como una continuación de GPT-4 en lugar de una renovación completa.
Veamos qué hay de nuevo en GPT-4, qué ofrece y cómo usarlo en un negocio.
GPT-4o es el último modelo de IA generativa insignia de Open AI. La “O” en GPT-4o significa “Omni”, que en latín significa “todo”. Esto complementa las capacidades mejoradas del modelo para manejar texto, habla y video.
Facilita la interacción de los usuarios con la IA. Las iteraciones anteriores de los modelos de IA generativa de Open AI buscaban hacer que el modelo fuera más inteligente. GPT-4o lo hace más sencillo de usar y mucho más rápido en responder.
Puedes hacer preguntas a ChatGPT impulsado por GPT-4o e interrumpirlo mientras responde. El modelo escuchará cuando interrumpas y reformulará la respuesta en tiempo real según la entrada dada. Puede captar matices en la voz del usuario y generar diferentes salidas de voz emotivas, incluyendo canto.
El CTO de OpenAI dice: “GPT-4o razona a través de la voz, el texto y la visión. Esto es increíblemente importante porque estamos mirando hacia el futuro de la interacción entre humanos y máquinas.”
A continuación, algunos de los aspectos más destacados de GPT-4o.
¿Sabías?Puedes aprovechar GPT-4o para equipar tu sitio web y vender mejor y más rápido. Descubre cómo usar GPT-4o como agente de ventas.
Las políticas de IA generativa en las empresas todavía están en sus primeras etapas. La Ley de la Unión Europea es el único marco legal importante. Debes tomar tu propia decisión sobre qué constituye una IA segura.
OpenAI utiliza un marco de preparación para decidir si un modelo puede ser lanzado al público. Prueba el modelo en ciberseguridad, amenazas biológicas, químicas, radiológicas o nucleares potenciales, capacidad de persuasión y autonomía del modelo. La puntuación del modelo es la calificación más alta (Baja, Media, Alta o Crítica) que recibe en cualquier categoría.
GPT-4o tiene una preocupación media y evita el nivel de riesgo más alto que podría poner en peligro la civilización humana.
Como todas las IA generativas, GPT-4o puede no comportarse siempre exactamente como deseas. Sin embargo, en comparación con modelos anteriores, GPT-4o muestra mejoras significativas. Podría presentar algunos riesgos como llamadas de scam deepfake. Para mitigar estos riesgos, la salida de audio solo está disponible en voces preestablecidas.
GPT-4o ofrece mejores capacidades de imágenes y texto para analizar el contenido de la entrada. En comparación con modelos anteriores, GPT-4o es mejor respondiendo preguntas complejas como, “¿Cuál es la marca de la camiseta que lleva una persona?” Por ejemplo, este modelo puede mirar un menú en un idioma diferente y traducirlo.
Los modelos futuros ofrecerán capacidades mucho más avanzadas, como ver un evento deportivo y explicar sus reglas.
Esto es lo que cambió en GPT-4o en comparación con otros modelos de IA generativa de Open AI.
Los sistemas anteriores de OpenAI combinaban Whisper, GPT-4 Turbo y Text-to-Speech en una línea de proceso con un motor de razonamiento. Solo tenían acceso a palabras habladas y descartaban el tono de voz, ruidos de fondo y sonidos de múltiples hablantes. Limitaba la capacidad de GPT-4 Turbo para expresar diferentes emociones o estilos de habla.
Con GPT-4o, un solo modelo razona a través de texto y audio. Esto hace que el modelo sea más receptivo al tono y la información de audio disponible en el fondo, generando respuestas de mayor calidad con diferentes estilos de habla.
La latencia promedio del modo de voz de GPT-4o es de 0.32 segundos. Esto es nueve veces más rápido que el promedio de GPT-3.5, que es de 2.8 segundos, y 17 veces más rápido que el promedio de GPT-4, que es de 5.4 segundos.
El tiempo de respuesta promedio de un humano es de 0.21 segundos. Por lo tanto, el tiempo de respuesta de GPT-4o está más cerca del de un humano. Lo hace adecuado para traducción en tiempo real de habla.
Los tokens son unidades de texto que un modelo puede entender. Cuando trabajas con un modelo de lenguaje grande (LLM), el texto del prompt primero se convierte en tokens. Cuando escribes en inglés, tres palabras toman cerca de cuatro tokens.
Si se necesitan menos tokens para representar un idioma, se deben hacer menos cálculos y la velocidad de generación de texto aumenta. Además, esto disminuye el precio para los usuarios de API, ya que se cobran por entrada o salida de tokens.
En GPT-4o, idiomas indios como hindi, maratí, tamil, telugu, gujarati y otros han mejorado, mostrando especialmente una reducción en los tokens. El árabe muestra una reducción de 2x, mientras que los idiomas del este de Asia observan una reducción de 1.4x a 1.7x en tokens.
GPT 4 Turbo, Claude 3 Opus y Gemini Pro 1.5 serían los principales contendientes para comparar con GPT-4o. Llama 3 400B podría ser un contendiente en el futuro, pero aún no está terminado.
A continuación se presenta una comparación de GPT-4o con los modelos mencionados anteriormente basada en diferentes parámetros.
El rendimiento fluctúa solo en unos pocos puntos porcentuales al comparar GPT-4 Turbo y GPT-4o. Sin embargo, estos benchmarks de LLM no comparan el rendimiento de la IA en problemas multimodales. El concepto es nuevo, y aún no existen formas de medir la capacidad de razonamiento de un modelo a través de texto, audio y video.
El rendimiento de GPT-4o es impresionante y muestra un futuro prometedor para el entrenamiento multimodal.
GPT-4o puede razonar eficazmente a través de texto, audio y video. Esto hace que el modelo sea adecuado para una variedad de casos de uso, por ejemplo:
GTP-4o ahora puede interactuar contigo como si conversaras con humanos. Necesitas dedicar menos tiempo a escribir, haciendo la conversación más natural. Ofrece información rápida y precisa.
Con más velocidad y capacidades audiovisuales, Open AI presenta varios casos de uso en tiempo real donde puedes interactuar con la IA usando la vista del mundo. Esto abre oportunidades para navegación, traducción, instrucciones guiadas y comprensión de información visual compleja.
Por ejemplo, GPT-4o puede funcionar en escritorios, móviles y potencialmente en dispositivos vestibles en el futuro. Puedes mostrar una imagen o pantalla de escritorio para hacer preguntas en lugar de escribir o cambiar entre diferentes modelos y pantallas.
Por otro lado, la capacidad de GPT-4o para entender entrada de video desde una cámara y describir verbalmente la escena puede ser increíblemente útil para personas con discapacidad visual. Funcionaría como una función de descripción de audio para la vida real, ayudándolas a entender mejor su entorno.
GPT-4o conecta las entradas de tus dispositivos de manera fluida, facilitando la interacción con el modelo. Con modalidades integradas y mejor rendimiento, las empresas pueden usarlo para construir aplicaciones de visión personalizadas.
Puedes usarlo donde no estén disponibles modelos de código abierto y cambiar a modelos personalizados para pasos adicionales que reduzcan costos.
GPT-4o mejora el rendimiento y la velocidad.Experiencia permite a los usuarios integrar un agente de ventas de IA impulsado por GPT-4o en un sitio web. Actualmente, permite a los visitantes de tu sitio responder preguntas complejas, captar clientes potenciales y reservar reuniones más rápidamente.
Con IA de experiencia, puedes entrenar a estos agentes para responder preguntas altamente complejas de los visitantes. En el futuro, la experiencia podría aprovechar las capacidades de GPT-4o para razonar a través de texto, video y audio y entrenar agentes de ventas de IA en múltiples formatos de medios.
Hasta entonces, deja que los visitantes de tu sitio obtengan la ayuda que necesitan de los agentes de ventas de IA de Expertise antes de llegar a la etapa de conectarse con un vendedor.
Prueba IA de experiencia y permite que tus visitantes experimenten la velocidad de GPT-4o en la respuesta a preguntas relacionadas con tus productos o servicios.