Em abril, a Chatbot Arena da LMSYS viu "im-also-a-good-gpt2-chatbot" no seu quadro de líderes para as principais IA generativas.
O mesmo modelo de IA foi revelado como GPT-4o. O "GPT2" no nome não indica o modelo anterior da Open AI, "GPT-2". Pelo contrário, indica uma nova arquitetura para os modelos GPT, e o "2" sugere uma mudança importante no design do modelo.
As equipes de engenharia da Open AI consideram que é uma grande mudança para justificar nomeá-lo com um novo número de versão. Ainda assim, as equipes de marketing o apresentam modestamente como uma continuação do GPT-4, e não uma reformulação completa.
Vamos analisar o que há de novo no GPT-4, o que ele oferece e como usá-lo em um negócio.
GPT-4o é o mais recente modelo de IA generativa de destaque da Open AI. O "O" em GPT-4o significa "Omni", que quer dizer "todo" em latim. Isso complementa as capacidades aprimoradas do modelo para lidar com texto, fala e vídeo.
Facilita a interação dos usuários com a IA. As iterações anteriores dos modelos de IA generativa da Open AI visavam tornar o modelo mais inteligente. O GPT-4o torna o uso mais simples e responde muito mais rápido.
Você pode fazer perguntas ao ChatGPT alimentado pelo GPT-4o e interrompê-lo enquanto responde. O modelo ouvirá quando você interromper e reformulará a resposta em tempo real com base na entrada fornecida. Ele consegue captar nuances na voz do usuário e gerar diferentes saídas de voz emotivas, incluindo canto.
O CTO da OpenAI diz: "GPT-4o raciocina através de voz, texto e visão. Isso é incrivelmente importante porque estamos olhando para o futuro da interação entre humanos e máquinas."
A seguir, alguns dos destaques mais importantes do GPT-4o.
Você sabia? Você pode usar o GPT-4o para equipar seu site para vender melhor e mais rápido. Descubra como usar o GPT-4o como um agente de vendas.
As políticas de IA generativa nas empresas ainda estão em seus estágios iniciais. A Lei da União Europeia é o único marco legal significativo. Você precisa tomar sua própria decisão sobre o que constitui uma IA segura.
A OpenAI utiliza uma estrutura de preparação para decidir se um modelo pode ser lançado ao público. Ela testa o modelo quanto à cibersegurança, ameaças biológicas, químicas, radiológicas ou nucleares, capacidade de persuasão e autonomia do modelo. A pontuação do modelo é a nota mais alta (Baixa, Média, Alta ou Crítica) que ele recebe em qualquer categoria.
O GPT-4o tem uma preocupação média e evita o nível de risco mais alto que poderia desestabilizar a civilização humana.
Como todas as IAs generativas, o GPT-4o pode nem sempre se comportar exatamente como você pretendia. No entanto, em comparação com modelos anteriores, o GPT-4o apresenta melhorias significativas. Pode apresentar alguns riscos, como chamadas de scam deepfake. Para mitigar esses riscos, a saída de áudio está disponível apenas em vozes predefinidas.
O GPT-4o oferece melhores capacidades de imagens e texto para analisar o conteúdo da entrada. Em comparação com modelos anteriores, o GPT-4o é melhor em responder a perguntas complexas, como "Qual é a marca da camiseta que uma pessoa está usando?". Por exemplo, esse modelo pode olhar um menu em outro idioma e traduzi-lo.
Os modelos futuros oferecerão capacidades muito mais avançadas, como assistir a um evento esportivo e explicar suas regras.
Veja o que mudou no GPT-4o em comparação com outros modelos de IA generativa da Open AI.
Os sistemas anteriores da OpenAI combinavam Whisper, GPT-4 Turbo e Text-to-Speech em um pipeline com um motor de raciocínio. Eles tinham acesso apenas às palavras faladas e descartavam o tom de voz, ruídos de fundo e sons de múltiplos falantes. Isso limitava a capacidade do GPT-4 Turbo de expressar diferentes emoções ou estilos de fala.
Com o GPT-4o, um único modelo raciocina através de texto e áudio. Isso torna o modelo mais receptivo ao tom e às informações de áudio disponíveis no background, gerando respostas de maior qualidade com diferentes estilos de fala.
A latência média do modo de voz do GPT-4o é de 0,32 segundos. Isso é nove vezes mais rápido que a média do GPT-3.5, de 2,8 segundos, e 17 vezes mais rápido que a média do GPT-4, de 5,4 segundos.
O tempo médio de resposta humana é de 0,21 segundos. Portanto, o tempo de resposta do GPT-4o está mais próximo ao de um humano. Isso o torna adequado para tradução de fala em tempo real.
Tokens são unidades de texto que um modelo pode entender. Quando você trabalha com um grande modelo de linguagem (LLM), o texto do prompt é primeiro convertido em tokens. Quando você escreve em inglês, três palavras levam cerca de quatro tokens.
Se levar menos tokens para representar uma língua, menos cálculos precisam ser feitos, e a velocidade de geração de texto aumenta. Além disso, isso reduz o preço para os usuários da API, pois as cobranças abertas por entrada ou saída de token são feitas.
No GPT-4o, línguas indianas como Hindi, Marathi, Tamil, Telugu, Gujarati, e outras se beneficiaram, especialmente com redução de tokens. O árabe mostra uma redução de 2x, enquanto línguas do leste asiático observam uma redução de 1,4x a 1,7x em tokens.
GPT 4 Turbo, Claude 3 Opus e Gemini Pro 1.5 seriam os principais concorrentes para comparar com o GPT-4o. O Llama 3 400B pode ser um concorrente no futuro, mas ainda não está finalizado.
A seguir, uma comparação do GPT-4o com os modelos mencionados anteriormente com base em diferentes parâmetros.
O desempenho oscila apenas alguns pontos percentuais ao comparar o GPT-4 Turbo com o GPT-4o. No entanto, esses benchmarks de LLM não comparam o desempenho da IA em problemas multimodais. O conceito é novo, e ainda estão por vir formas de medir a capacidade de raciocínio do modelo através de texto, áudio e vídeo.
O desempenho do GPT-4o é impressionante e mostra um futuro promissor para o treinamento multimodal.
O GPT-4o consegue raciocinar de forma eficaz através de texto, áudio e vídeo. Isso torna o modelo adequado para uma variedade de casos de uso, por exemplo:
O GPT-4o agora pode interagir com você como se fosse uma conversa com humanos. Você precisa gastar menos tempo digitando, tornando a conversa mais natural. Ele fornece informações rápidas e precisas.
Com mais velocidade e capacidades audiovisuais, a Open AI apresenta vários casos de uso em tempo real onde você pode interagir com a IA usando a visão do mundo. Isso abre oportunidades para navegação, tradução, instruções guiadas e compreensão de informações visuais complexas.
Por exemplo, o GPT-4o pode rodar em desktops, celulares e potencialmente em wearables no futuro. Você pode mostrar uma tela visual ou de desktop para fazer perguntas, ao invés de digitar ou alternar entre diferentes modelos e telas.
Por outro lado, a capacidade do GPT-4o de entender entrada de vídeo de uma câmera e descrever verbalmente a cena pode ser incrivelmente útil para pessoas com deficiência visual. Funcionaria como um recurso de descrição de áudio para a vida real, ajudando-as a entender melhor seu entorno.
O GPT-4o conecta as entradas do seu dispositivo de forma fluida, facilitando a interação com o modelo. Com modalidades integradas e desempenho aprimorado, as empresas podem usá-lo para criar aplicações de visão personalizadas.
Você pode usá-lo onde modelos de código aberto não estão disponíveis e trocar por modelos personalizados para etapas adicionais que reduzam custos.
O GPT-4o melhora o desempenho e a velocidade.Especialização permite que os usuários conectem um agente de vendas de IA alimentado pelo GPT-4o a um site. Atualmente, ele permite que os visitantes do seu site respondam a perguntas complexas, capturem leads e agendem reuniões mais rapidamente.
Com Expertise AI , você pode treinar esses agentes para responder a perguntas altamente complexas dos visitantes. No futuro, o Expertise pode aproveitar as capacidades do GPT-4o para raciocinar através de texto, vídeo e áudio, treinando agentes de vendas de IA em múltiplos formatos de mídia.
Até lá, deixe que os visitantes do seu site obtenham a ajuda que precisam dos agentes de vendas de IA do Expertise antes de chegarem ao estágio de se conectar com um vendedor.
Experimente Expertise AI e permita que seus visitantes experimentem a velocidade do GPT-4o ao responder perguntas relacionadas aos seus produtos ou serviços.