O que é GPT-4o? Explorando seus casos de uso em um negócio

what-is-gpt-4o.jpg

Em abril, a Chatbot Arena da LMSYS viu "im-also-a-good-gpt2-chatbot" no seu quadro de líderes para as principais IA generativas.

O mesmo modelo de IA foi revelado como GPT-4o. O "GPT2" no nome não indica o modelo anterior da Open AI, "GPT-2". Pelo contrário, indica uma nova arquitetura para os modelos GPT, e o "2" sugere uma mudança importante no design do modelo.

As equipes de engenharia da Open AI consideram que é uma grande mudança para justificar nomeá-lo com um novo número de versão. Ainda assim, as equipes de marketing o apresentam modestamente como uma continuação do GPT-4, e não uma reformulação completa.

Vamos analisar o que há de novo no GPT-4, o que ele oferece e como usá-lo em um negócio.

O que é GPT-4o?

GPT-4o é o mais recente modelo de IA generativa de destaque da Open AI. O "O" em GPT-4o significa "Omni", que quer dizer "todo" em latim. Isso complementa as capacidades aprimoradas do modelo para lidar com texto, fala e vídeo.

Facilita a interação dos usuários com a IA. As iterações anteriores dos modelos de IA generativa da Open AI visavam tornar o modelo mais inteligente. O GPT-4o torna o uso mais simples e responde muito mais rápido.

Você pode fazer perguntas ao ChatGPT alimentado pelo GPT-4o e interrompê-lo enquanto responde. O modelo ouvirá quando você interromper e reformulará a resposta em tempo real com base na entrada fornecida. Ele consegue captar nuances na voz do usuário e gerar diferentes saídas de voz emotivas, incluindo canto.

O CTO da OpenAI diz: "GPT-4o raciocina através de voz, texto e visão. Isso é incrivelmente importante porque estamos olhando para o futuro da interação entre humanos e máquinas."

O que o GPT-4o oferece?

A seguir, alguns dos destaques mais importantes do GPT-4o.

  • Experiência do usuário aprimorada. As interações com a IA tornaram-se mais naturais e fáceis.
  • Capacidades multilíngues. O GPT-4o apresenta um desempenho melhor em cerca de 50 idiomas. Isso o torna mais acessível globalmente.
  • Desempenho aprimorado. O GPT-4o é cerca de duas vezes mais rápido que o GPT-4 Turbo. Custa metade do preço de sua versão anterior, oferecendo limites de taxa mais altos.
  • Capacidades de voz aprimoradas. Devido ao risco de uso indevido, recursos de voz aprimorados não estão disponíveis para todos os clientes, mas a OpenAI começou a oferecer suporte para um pequeno grupo de parceiros confiáveis.
  • Disponibilidade da camada gratuita. O GPT-4o está disponível na camada gratuita do ChatGPT. Os assinantes do ChatGPT Plus têm limites de mensagens cinco vezes maiores. Se os limites de taxa do GPT-4o forem atingidos, o modelo muda automaticamente para GPT-3.5.
  • Experiência do usuário aprimorada. A Open AI oferece uma tela inicial mais conversacional e um layout de mensagens na web. A versão desktop do ChatGPT com GPT-4o para macOS (disponível para usuários do ChatGPT Plus em fases) permite que os usuários façam perguntas por meio de um atalho de teclado. A versão para Windows do aplicativo chegará ainda este ano.
  • Oferece conversas naturais. O modelo lida com interrupções enquanto ajusta sua resposta e tom de acordo. As conversas acontecem em um ritmo natural. No entanto, podem haver breves pausas enquanto o modelo raciocina as respostas.

Você sabia? Você pode usar o GPT-4o para equipar seu site para vender melhor e mais rápido. Descubra como usar o GPT-4o como um agente de vendas.

Riscos e preocupações com o GPT-4o

As políticas de IA generativa nas empresas ainda estão em seus estágios iniciais. A Lei da União Europeia é o único marco legal significativo. Você precisa tomar sua própria decisão sobre o que constitui uma IA segura.

A OpenAI utiliza uma estrutura de preparação para decidir se um modelo pode ser lançado ao público. Ela testa o modelo quanto à cibersegurança, ameaças biológicas, químicas, radiológicas ou nucleares, capacidade de persuasão e autonomia do modelo. A pontuação do modelo é a nota mais alta (Baixa, Média, Alta ou Crítica) que ele recebe em qualquer categoria.

O GPT-4o tem uma preocupação média e evita o nível de risco mais alto que poderia desestabilizar a civilização humana.

Como todas as IAs generativas, o GPT-4o pode nem sempre se comportar exatamente como você pretendia. No entanto, em comparação com modelos anteriores, o GPT-4o apresenta melhorias significativas. Pode apresentar alguns riscos, como chamadas de scam deepfake. Para mitigar esses riscos, a saída de áudio está disponível apenas em vozes predefinidas.

GPT-4o vs. modelos anteriores de IA generativa da Open AI

O GPT-4o oferece melhores capacidades de imagens e texto para analisar o conteúdo da entrada. Em comparação com modelos anteriores, o GPT-4o é melhor em responder a perguntas complexas, como "Qual é a marca da camiseta que uma pessoa está usando?". Por exemplo, esse modelo pode olhar um menu em outro idioma e traduzi-lo.

Os modelos futuros oferecerão capacidades muito mais avançadas, como assistir a um evento esportivo e explicar suas regras.

Veja o que mudou no GPT-4o em comparação com outros modelos de IA generativa da Open AI.

Tom de voz

Os sistemas anteriores da OpenAI combinavam Whisper, GPT-4 Turbo e Text-to-Speech em um pipeline com um motor de raciocínio. Eles tinham acesso apenas às palavras faladas e descartavam o tom de voz, ruídos de fundo e sons de múltiplos falantes. Isso limitava a capacidade do GPT-4 Turbo de expressar diferentes emoções ou estilos de fala.

Com o GPT-4o, um único modelo raciocina através de texto e áudio. Isso torna o modelo mais receptivo ao tom e às informações de áudio disponíveis no background, gerando respostas de maior qualidade com diferentes estilos de fala.

Baixa latência

A latência média do modo de voz do GPT-4o é de 0,32 segundos. Isso é nove vezes mais rápido que a média do GPT-3.5, de 2,8 segundos, e 17 vezes mais rápido que a média do GPT-4, de 5,4 segundos.

O tempo médio de resposta humana é de 0,21 segundos. Portanto, o tempo de resposta do GPT-4o está mais próximo ao de um humano. Isso o torna adequado para tradução de fala em tempo real.

Melhor tokenização

Tokens são unidades de texto que um modelo pode entender. Quando você trabalha com um grande modelo de linguagem (LLM), o texto do prompt é primeiro convertido em tokens. Quando você escreve em inglês, três palavras levam cerca de quatro tokens.

Se levar menos tokens para representar uma língua, menos cálculos precisam ser feitos, e a velocidade de geração de texto aumenta. Além disso, isso reduz o preço para os usuários da API, pois as cobranças abertas por entrada ou saída de token são feitas.

No GPT-4o, línguas indianas como Hindi, Marathi, Tamil, Telugu, Gujarati, e outras se beneficiaram, especialmente com redução de tokens. O árabe mostra uma redução de 2x, enquanto línguas do leste asiático observam uma redução de 1,4x a 1,7x em tokens.

GPT-4o vs. outros modelos de IA generativa

GPT 4 Turbo, Claude 3 Opus e Gemini Pro 1.5 seriam os principais concorrentes para comparar com o GPT-4o. O Llama 3 400B pode ser um concorrente no futuro, mas ainda não está finalizado.

A seguir, uma comparação do GPT-4o com os modelos mencionados anteriormente com base em diferentes parâmetros.

  • Massive Multitask Language Understanding (MMLU).Este teste inclui tarefas de matemática elementar, história dos EUA, ciência da computação, direito e mais. Para alcançar alta precisão neste teste, os modelos devem possuir amplo conhecimento do mundo e habilidade de resolução de problemas. O GPT-4o apresenta desempenho superior a outros modelos de IA.
  • Perguntas e Respostas de Nível de Pós-Graduação à Prova de Google (GPQA).Questões de múltipla escolha são elaboradas por especialistas nos domínios de biologia, física e química. As perguntas são de alta qualidade e extremamente difíceis: especialistas com ou em busca de doutorado nos respectivos campos alcançam 74% de precisão. O GPT-4o oferece desempenho melhor do que outros modelos.
  • MATH.Problemas de matemática do ensino fundamental e médio. O desempenho do GPT-4o foi considerado melhor do que o de outros modelos.
  • HumanEval.Testa a correção funcional do código de computador usado para verificar a geração de código. O desempenho do GPT-4o foi superior ao de outros modelos.
  • Matemática Multilíngue para Ensino Fundamental (MSGM).Problemas de matemática do ensino fundamental são traduzidos para dez idiomas, incluindo línguas sub-representadas como Bengali e Swahili. O Claude 3 Opus teve um desempenho melhor do que o GPT-4o no MSGM.
  • Raciocínio Discreto Sobre Parágrafos (DROP).Questões que exigem compreensão de parágrafos completos, como somar, contar ou ordenar valores, distribuídos por várias frases. O GPT-4 Turbo teve um desempenho melhor do que o GPT-4o no DROP.

O desempenho oscila apenas alguns pontos percentuais ao comparar o GPT-4 Turbo com o GPT-4o. No entanto, esses benchmarks de LLM não comparam o desempenho da IA em problemas multimodais. O conceito é novo, e ainda estão por vir formas de medir a capacidade de raciocínio do modelo através de texto, áudio e vídeo.

O desempenho do GPT-4o é impressionante e mostra um futuro promissor para o treinamento multimodal.

Casos de uso do GPT-4o

O GPT-4o consegue raciocinar de forma eficaz através de texto, áudio e vídeo. Isso torna o modelo adequado para uma variedade de casos de uso, por exemplo:

Visão computacional em tempo real e interação natural

O GPT-4o agora pode interagir com você como se fosse uma conversa com humanos. Você precisa gastar menos tempo digitando, tornando a conversa mais natural. Ele fornece informações rápidas e precisas.

Com mais velocidade e capacidades audiovisuais, a Open AI apresenta vários casos de uso em tempo real onde você pode interagir com a IA usando a visão do mundo. Isso abre oportunidades para navegação, tradução, instruções guiadas e compreensão de informações visuais complexas.

Por exemplo, o GPT-4o pode rodar em desktops, celulares e potencialmente em wearables no futuro. Você pode mostrar uma tela visual ou de desktop para fazer perguntas, ao invés de digitar ou alternar entre diferentes modelos e telas.

Por outro lado, a capacidade do GPT-4o de entender entrada de vídeo de uma câmera e descrever verbalmente a cena pode ser incrivelmente útil para pessoas com deficiência visual. Funcionaria como um recurso de descrição de áudio para a vida real, ajudando-as a entender melhor seu entorno.

Aplicações empresariais

O GPT-4o conecta as entradas do seu dispositivo de forma fluida, facilitando a interação com o modelo. Com modalidades integradas e desempenho aprimorado, as empresas podem usá-lo para criar aplicações de visão personalizadas.

Você pode usá-lo onde modelos de código aberto não estão disponíveis e trocar por modelos personalizados para etapas adicionais que reduzam custos.

Use o GPT-4o para gerar leads no seu negócio

O GPT-4o melhora o desempenho e a velocidade.Especialização permite que os usuários conectem um agente de vendas de IA alimentado pelo GPT-4o a um site. Atualmente, ele permite que os visitantes do seu site respondam a perguntas complexas, capturem leads e agendem reuniões mais rapidamente.

Com Expertise AI , você pode treinar esses agentes para responder a perguntas altamente complexas dos visitantes. No futuro, o Expertise pode aproveitar as capacidades do GPT-4o para raciocinar através de texto, vídeo e áudio, treinando agentes de vendas de IA em múltiplos formatos de mídia.

Até lá, deixe que os visitantes do seu site obtenham a ajuda que precisam dos agentes de vendas de IA do Expertise antes de chegarem ao estágio de se conectar com um vendedor.

Experimente Expertise AI e permita que seus visitantes experimentem a velocidade do GPT-4o ao responder perguntas relacionadas aos seus produtos ou serviços.