四月,LMSYS的聊天机器人竞技场在其排行榜上出现“im-also-a-good-gpt2-chatbot”。
同一AI模型已被揭示为GPT-4o。名称中的“GPT2”并不代表OpenAI之前的AI模型“GPT-2”,相反,它代表了GPT模型的一种新架构,而“2”暗示了模型设计的重大变革。
OpenAI的工程团队认为这是一个重大变化,值得用新版本号命名。然而,市场团队则谦虚地将其描述为GPT-4的延续,而非彻底的革新。
让我们看看GPT-4的最新内容、它的功能,以及如何在商业中使用它。
GPT-4o是OpenAI的最新旗舰生成式AI模型。GPT-4o中的“O”代表“Omni”,在拉丁语中意为“每个”。这补充了模型在处理文本、语音和视频方面的增强能力。
它使用户与AI的互动变得更加容易。之前版本的OpenAI生成式AI模型旨在让模型更智能。GPT-4o则使其更易用,响应速度更快。
你可以向由GPT-4o驱动的ChatGPT提问,并在回答过程中打断它。模型会在你打断时倾听,并根据输入实时调整回答。它还能捕捉用户声音中的细微差别,生成不同情感的语音输出,包括唱歌。
OpenAI的首席技术官表示:“GPT-4o在语音、文本和视觉方面都能推理。这非常重要,因为我们在展望人类与机器之间未来的互动。”
以下是GPT-4o的一些主要亮点。
你知道吗?你可以利用GPT-4o让你的网站销售更好更快。了解如何将GPT-4o作为销售代理.
企业中的生成式AI政策仍处于早期阶段。欧盟法案是唯一的重要法律框架。你需要自行决定什么构成安全的AI。
OpenAI利用一套准备框架来决定模型是否可以向公众发布。它会测试模型的网络安全性、潜在的生物、化学、放射性或核威胁、说服能力和模型自主性。模型的评分是其在任何类别中获得的最高等级(低、中、高或关键)。
GPT-4o的关注度中等,避免了可能颠覆人类文明的最高风险级别。
像所有生成式AI一样,GPT-4o可能并不总是完全按你的预期表现。然而,与之前的模型相比,GPT-4o显示出显著的改进。它可能带来一些风险,比如深度伪造诈骗电话。为减轻这些风险,音频输出仅提供预设语音。
GPT-4o提供了更好的图像和文本能力,能够分析输入内容。与之前的模型相比,GPT-4o在回答复杂问题方面表现更佳,比如“某人穿的T恤品牌是什么?”例如,该模型可以查看不同语言的菜单并进行翻译。
未来的模型将提供更先进的功能,比如观看体育赛事并解释其规则。
以下是GPT-4o相较于OpenAI其他生成式AI模型的变化。
之前的OpenAI系统将Whisper、GPT-4 Turbo和文本转语音结合在一个推理引擎的管道中。它们只能访问语音内容,忽略了语调、背景噪音和多说话者的声音。这限制了GPT-4 Turbo表达不同情感或语调的能力。
使用GPT-4o,一个模型可以在文本和音频之间进行推理。这使模型更能感知背景中的语调和音频信息,生成具有不同说话风格的高质量响应。
GPT-4o的平均语音模式延迟为0.32秒,比GPT-3.5的2.8秒快九倍,比GPT-4的5.4秒快17倍。
人类的平均反应时间为0.21秒。因此,GPT-4o的响应时间更接近人类,适合实时语音翻译。
分词是模型能理解的文本单位。当你使用大型语言模型(LLM)时,提示文本首先被转换成分词。当你用英语写作时,三个词大约需要四个分词。
如果一种语言的分词更少,所需计算也更少,文本生成速度会更快。此外,这也降低了API用户的成本,因为按输入或输出的每个分词收费。
在GPT-4o中,印度语言如印地语、马拉地语、泰米尔语、泰卢固语、古吉拉特语等受益良多,特别是分词数明显减少。阿拉伯语减少了两倍,东亚语言的分词数减少了1.4到1.7倍。
GPT 4 Turbo、Claude 3 Opus和Gemini Pro 1.5将是与GPT-4o比较的主要竞争者。未来,Llama 3 400B可能成为竞争者,但尚未完成。
以下是GPT-4o与上述模型在不同参数下的比较。
当比较GPT-4 Turbo和GPT-4o时,性能只波动几个百分点。然而,这些LLM基准测试并未比较AI在多模态问题上的表现。这个概念还很新,衡量模型跨文本、音频和视频推理能力的方法尚未出现。
GPT-4o的表现令人印象深刻,展现了多模态训练的光明未来。
GPT-4o能够有效进行跨文本、音频和视频的推理。这使得模型适用于多种应用场景,例如:
GTP-4o现在可以像与人类对话一样与你互动。你需要花更少的时间打字,使对话更自然。它提供快速而准确的信息。
随着速度和视听能力的增强,Open AI展示了多个实时应用场景,你可以用世界的视角与AI互动。这为导航、翻译、引导指令和理解复杂视觉信息提供了机会。
例如,GPT-4o可以在台式机、手机,未来甚至可穿戴设备上运行。你可以展示视觉或桌面屏幕来提问,而无需打字或在不同模型和屏幕之间切换。
另一方面,GPT-4o能够理解来自摄像头的视频输入并用语言描述场景,这对于视障人士非常有用。它就像现实生活中的音频描述功能,帮助他们更好地理解周围环境。
GPT-4o无缝连接你的设备输入,简化与模型的交互。通过集成多模态和性能提升,企业可以用它来构建定制的视觉应用。
在没有开源模型的情况下,你可以使用它,并切换到定制模型以进行额外步骤,从而降低成本。
GPT-4o提升了性能和速度。专业能力让用户将由GPT-4o驱动的AI销售代理集成到网站中。目前,它可以帮助你的网站访客回答复杂问题、捕获潜在客户和更快地预约会议。
借助Expertise AI,你可以训练这些代理回答高度复杂的访客问题。未来,Expertise可能会利用GPT-4o的跨文本、视频和音频推理能力,在多媒体格式上训练AI销售代理。
在此之前,让你的网站访客在与销售人员联系之前,从Expertise的AI销售代理那里获得所需的帮助。
试用 Expertise AI ,让你的访客体验GPT-4o在回答与你的产品或服务相关问题上的速度。