What Is GPT-4o? Exploring Its Use Cases In a Business

what-is-gpt-4o.jpg

四月,LMSYS的聊天机器人竞技场在其排行榜上出现“im-also-a-good-gpt2-chatbot”。

同一AI模型已被揭示为GPT-4o。名称中的“GPT2”并不代表OpenAI之前的AI模型“GPT-2”,相反,它代表了GPT模型的一种新架构,而“2”暗示了模型设计的重大变革。

OpenAI的工程团队认为这是一个重大变化,值得用新版本号命名。然而,市场团队则谦虚地将其描述为GPT-4的延续,而非彻底的革新。

让我们看看GPT-4的最新内容、它的功能,以及如何在商业中使用它。

什么是GPT-4o?

GPT-4o是OpenAI的最新旗舰生成式AI模型。GPT-4o中的“O”代表“Omni”,在拉丁语中意为“每个”。这补充了模型在处理文本、语音和视频方面的增强能力。

它使用户与AI的互动变得更加容易。之前版本的OpenAI生成式AI模型旨在让模型更智能。GPT-4o则使其更易用,响应速度更快。

你可以向由GPT-4o驱动的ChatGPT提问,并在回答过程中打断它。模型会在你打断时倾听,并根据输入实时调整回答。它还能捕捉用户声音中的细微差别,生成不同情感的语音输出,包括唱歌。

OpenAI的首席技术官表示:“GPT-4o在语音、文本和视觉方面都能推理。这非常重要,因为我们在展望人类与机器之间未来的互动。”

GPT-4o提供了什么?

以下是GPT-4o的一些主要亮点。

  • 改善的用户体验。与AI的互动变得更加自然和轻松。
  • 多语言能力。GPT-4o在大约50种语言中的表现更佳,使其在全球范围内更易接触。
  • 性能提升。GPT-4o的速度大约是GPT-4 Turbo的两倍,成本只有前一版本的一半,同时提供更高的速率限制。
  • 增强的语音功能。由于滥用风险,改进的语音功能并未对所有用户开放,但OpenAI已开始为少数可信合作伙伴提供支持。
  • 免费层的可用性。GPT-4o在ChatGPT的免费层中可用。ChatGPT Plus订阅用户的消息限制是普通用户的五倍。如果达到速率限制,模型会自动切换到GPT-3.5。
  • 改善的用户体验。OpenAI在网页上提供了更具对话性的首页和消息布局。macOS版的ChatGPT(逐步向ChatGPT Plus用户推出)支持通过快捷键提问。Windows版本将在今年晚些时候推出。
  • 提供自然对话。模型在处理中断时会调整其响应和语调,对话以自然节奏进行。然而,可能会有短暂的暂停,模型在此期间进行推理。

你知道吗?你可以利用GPT-4o让你的网站销售更好更快。了解如何将GPT-4o作为销售代理.

关于GPT-4o的风险与担忧

企业中的生成式AI政策仍处于早期阶段。欧盟法案是唯一的重要法律框架。你需要自行决定什么构成安全的AI。

OpenAI利用一套准备框架来决定模型是否可以向公众发布。它会测试模型的网络安全性、潜在的生物、化学、放射性或核威胁、说服能力和模型自主性。模型的评分是其在任何类别中获得的最高等级(低、中、高或关键)。

GPT-4o的关注度中等,避免了可能颠覆人类文明的最高风险级别。

像所有生成式AI一样,GPT-4o可能并不总是完全按你的预期表现。然而,与之前的模型相比,GPT-4o显示出显著的改进。它可能带来一些风险,比如深度伪造诈骗电话。为减轻这些风险,音频输出仅提供预设语音。

GPT-4o与OpenAI之前的生成式AI模型对比

GPT-4o提供了更好的图像和文本能力,能够分析输入内容。与之前的模型相比,GPT-4o在回答复杂问题方面表现更佳,比如“某人穿的T恤品牌是什么?”例如,该模型可以查看不同语言的菜单并进行翻译。

未来的模型将提供更先进的功能,比如观看体育赛事并解释其规则。

以下是GPT-4o相较于OpenAI其他生成式AI模型的变化。

语调

之前的OpenAI系统将Whisper、GPT-4 Turbo和文本转语音结合在一个推理引擎的管道中。它们只能访问语音内容,忽略了语调、背景噪音和多说话者的声音。这限制了GPT-4 Turbo表达不同情感或语调的能力。

使用GPT-4o,一个模型可以在文本和音频之间进行推理。这使模型更能感知背景中的语调和音频信息,生成具有不同说话风格的高质量响应。

低延迟

GPT-4o的平均语音模式延迟为0.32秒,比GPT-3.5的2.8秒快九倍,比GPT-4的5.4秒快17倍。

人类的平均反应时间为0.21秒。因此,GPT-4o的响应时间更接近人类,适合实时语音翻译。

更好的分词

分词是模型能理解的文本单位。当你使用大型语言模型(LLM)时,提示文本首先被转换成分词。当你用英语写作时,三个词大约需要四个分词。

如果一种语言的分词更少,所需计算也更少,文本生成速度会更快。此外,这也降低了API用户的成本,因为按输入或输出的每个分词收费。

在GPT-4o中,印度语言如印地语、马拉地语、泰米尔语、泰卢固语、古吉拉特语等受益良多,特别是分词数明显减少。阿拉伯语减少了两倍,东亚语言的分词数减少了1.4到1.7倍。

GPT-4o与其他生成式AI模型对比

GPT 4 Turbo、Claude 3 Opus和Gemini Pro 1.5将是与GPT-4o比较的主要竞争者。未来,Llama 3 400B可能成为竞争者,但尚未完成。

以下是GPT-4o与上述模型在不同参数下的比较。

  • 大规模多任务语言理解(MMLU)。此测试包括基础数学、美国历史、计算机科学、法律等任务。为了在此测试中取得高准确率,模型必须具备广泛的世界知识和问题解决能力。GPT-4o的表现优于其他AI模型。
  • 研究生级别的Google-proof问答(GPQA)。多项选择题由生物学、物理学和化学领域的专家编写。题目质量高且极具难度:拥有或正在攻读相关领域博士学位的专家达到了74%的准确率。GPT-4o的表现优于其他模型。
  • 数学(MATH)。中学和高中数学题目。研究发现,GPT-4o的表现优于其他模型。
  • HumanEval。测试用于检查代码生成的计算机代码的功能正确性。GPT-4o的表现优于其他模型。
  • 多语种小学数学(MSGM)。小学数学题目被翻译成十种语言,包括孟加拉语和斯瓦希里语等代表性不足的语言。Claude 3 Opus在MSGM中表现优于GPT-4o。
  • 段落推理(DROP)。需要理解完整段落的问题,如加法、计数或排序值,跨越多句。GPT-4 Turbo在DROP中的表现优于GPT-4o。

当比较GPT-4 Turbo和GPT-4o时,性能只波动几个百分点。然而,这些LLM基准测试并未比较AI在多模态问题上的表现。这个概念还很新,衡量模型跨文本、音频和视频推理能力的方法尚未出现。

GPT-4o的表现令人印象深刻,展现了多模态训练的光明未来。

GPT-4o的应用场景

GPT-4o能够有效进行跨文本、音频和视频的推理。这使得模型适用于多种应用场景,例如:

实时计算机视觉和自然交互

GTP-4o现在可以像与人类对话一样与你互动。你需要花更少的时间打字,使对话更自然。它提供快速而准确的信息。

随着速度和视听能力的增强,Open AI展示了多个实时应用场景,你可以用世界的视角与AI互动。这为导航、翻译、引导指令和理解复杂视觉信息提供了机会。

例如,GPT-4o可以在台式机、手机,未来甚至可穿戴设备上运行。你可以展示视觉或桌面屏幕来提问,而无需打字或在不同模型和屏幕之间切换。

另一方面,GPT-4o能够理解来自摄像头的视频输入并用语言描述场景,这对于视障人士非常有用。它就像现实生活中的音频描述功能,帮助他们更好地理解周围环境。

企业应用

GPT-4o无缝连接你的设备输入,简化与模型的交互。通过集成多模态和性能提升,企业可以用它来构建定制的视觉应用。

在没有开源模型的情况下,你可以使用它,并切换到定制模型以进行额外步骤,从而降低成本。

使用GPT-4o为你的业务生成潜在客户

GPT-4o提升了性能和速度。专业能力让用户将由GPT-4o驱动的AI销售代理集成到网站中。目前,它可以帮助你的网站访客回答复杂问题、捕获潜在客户和更快地预约会议。

借助Expertise AI,你可以训练这些代理回答高度复杂的访客问题。未来,Expertise可能会利用GPT-4o的跨文本、视频和音频推理能力,在多媒体格式上训练AI销售代理。

在此之前,让你的网站访客在与销售人员联系之前,从Expertise的AI销售代理那里获得所需的帮助。

试用 Expertise AI ,让你的访客体验GPT-4o在回答与你的产品或服务相关问题上的速度。