GPT-4o是OpenAI的第三个主要版本,是他们受欢迎的大型多模态模型GPT-4的扩展,该模型带有视觉功能。这一新发布的模型能够以集成和无缝的方式与用户交流,比以往版本在使用ChatGPT界面时更加如此。
在GPT-4o的发布公告中,OpenAI强调了该模型实现了“更加自然的人机交互”。在本文中,我们将讨论GPT-4o是什么,它与以往模型的区别,评估其性能以及GPT-4o的用例。
GPT-4o是什么?
OpenAI的GPT-4o中,“o”代表全能(意思是“全部”或“普遍”),于2024年5月13日通过直播发布和演示。它是一个多模态模型,具有文本、视觉和音频输入输出功能,构建在OpenAI的GPT-4 with Vision模型的先前迭代版本GPT-4 Turbo的基础上。GPT-4o的强大和速度来自于它是一个处理多种模态的单一模型。之前的GPT-4版本使用了多个单一用途模型(语音到文本,文本到语音,文本到图像),为不同任务切换模型带来了碎片化的体验。
与GPT-4T相比,OpenAI声称它的速度是原来的两倍,输入标记和输出标记的成本降低了50%(分别为每百万5美元和每百万15美元),并且具有五倍的速率限制(每分钟高达1000万标记)。GPT-4o具有128K上下文窗口,并且具有截止日期为2023年10月的知识截止日期。一些新的功能目前可通过ChatGPT在线使用,通过桌面和移动设备上的ChatGPT应用程序,通过OpenAI API(请参阅API发布说明)以及通过Microsoft Azure使用。
GPT-4o的新特性是什么?
虽然发布演示仅展示了GPT-4o的视觉和音频功能,但发布博客包含的示例远远超出了GPT-4先前版本的能力。与其前身一样,它具有文本和视觉功能,但GPT-4o还具有跨其所有支持的模态的本地理解和生成能力,包括视频。
正如Sam Altman在他的个人博客中指出的那样,最令人兴奋的进步是模型的速度,特别是当模型使用语音进行通信时。这是第一次几乎没有延迟的回应,并且您可以与GPT-4o进行类似于您与人进行日常对话的互动。
在发布GPT-4 with Vision不到一年之后(请参阅我们对2023年9月发布的GPT-4的分析),OpenAI在性能和速度方面取得了有意义的进步,您不容错过。
让我们开始吧!
GPT-4o的文本评估
对于文本,根据OpenAI发布的自我评估基准结果,GPT-4o的得分略有改善或与其他LMM(如以前的GPT-4迭代、Anthropic的Claude 3 Opus、Google的Gemini和Meta的Llama3)相似。
请注意,在提供的文本评估基准结果中,OpenAI将Meta的Llama3的400b变体进行了比较。在发布结果时,Meta尚未完成对其400b变体模型的训练。
GPT-4o的视频功能
关于使用视频的API发布说明中的重要说明:“API中的GPT-4o支持通过视觉功能理解视频(无音频)。具体来说,视频需要转换为帧(每秒2-4帧,可以均匀采样或通过关键帧选择算法选择)以输入到模型中。”使用OpenAI视觉手册更好地了解如何将视频用作输入以及发布的限制。
GPT-4o演示了从上传的视频文件中查看和理解视频和音频的能力,以及生成短视频的能力。
在初始演示中,出现了许多GPT-4o被要求评论或回应视觉元素的情况。类似于我们对Gemini的初始观察,演示并未明确表明模型是否在接收视频,或者在需要“查看”实时信息时是否触发图像捕获。在初始演示中有一个时刻,GPT-4o可能没有触发图像捕获,因此看到了先前捕获的图像。
在YouTube上的这个演示视频中,GPT-4o“注意到”有人从后面走向Greg Brockman,做了兔子耳朵。在可见的手机屏幕上,除了声音效果外,还发生了“眨眼”动画。这意味着GPT-4o可能会像Gemini一样使用类似的方法处理视频,其中音频与视频的提取图像帧一起处理。
视频生成的唯一演示示例是3D模型视频重建,尽管有人推测它可能具有生成更复杂视频的能力。
GPT-4o的音频功能
与视频和图像类似,GPT-4o还具有摄取和生成音频文件的能力。
GPT-4o展示了对生成的语音具有令人印象深刻的细粒度控制,能够在需要时改变通信速度,改变音调,甚至按需唱歌。GPT-4o不仅可以控制自己的输出,还能够理解输入音频的声音作为任何请求的额外上下文。演示显示GPT-4o向试图说中文的人提供语调反馈,以及在呼吸练习期间给出对呼吸速度的反馈。
根据自我发布的基准测试,GPT-4o胜过了OpenAI自己的Whisper-v3,即以前的自动语音识别(ASR)的最新技术,并且在音频翻译方面优于Meta和Google的其他模型。
GPT-4o具有强大的图像生成能力,演示了一次性基于参考图像生成和准确的文本描述。考虑到要求保持特定单词并将其转换为替代的视觉设计,下面的图像尤其令人印象深刻。这种技能与GPT-4o创建自定义字体的能力类似。
GPT-4o的视觉理解
虽然在以前的迭代中存在的最先进能力,但视觉理解得到了改进,在几个视觉理解基准测试中达到了与GPT-4T、Gemini和Claude相媲美的水平。Roboflow对视觉理解进行了不太正式的一组评估,请查看开源大型多模态模型的真实世界视觉使用案例的结果。
虽然OpenAI没有公布GPT-4o的OCR功能,但我们将在本文的后续部分对其进行评估。
评估GPT-4o的视觉用例
接下来,我们使用OpenAI API和ChatGPT UI来评估GPT-4o的不同方面,包括光学字符识别(OCR)、文档OCR、文档理解、视觉问答(VQA)和目标检测。
光学字符识别(OCR)与GPT-4o
OCR是一种常见的计算机视觉任务,用于以文本格式返回图像中可见的文本。在这里,我们提示GPT-4o“读取序列号”和“从图片中读取文本”,它都能正确回答。
接下来,我们在用于测试其他OCR模型的相同数据集上评估了GPT-4o。
在这里,我们发现平均准确率为94.12%(比GPT-4V高出10.8%),中位准确率为60.76%(比GPT-4V高出4.78%),平均推理时间为1.45秒。
相对于GPT-4V,58.47%的速度提升使得GPT-4o成为速度效率方面的领导者(速度效率是一个根据准确性和经过的时间计算的指标)。
GPT-4o的应用案例
随着OpenAI不断扩展GPT-4的能力,并最终发布GPT-5,应用案例将呈指数级增长。GPT-4的发布使图像分类和标记变得非常容易,尽管OpenAI的开源CLIP模型的性能类似,但成本更低。添加了视觉功能后,可以将GPT-4与计算机视觉流水线中的其他模型结合起来,从而有可能将GPT-4与开源模型相结合,为使用视觉的更全面的定制应用程序提供机会。
GPT-4o的一些关键要素打开了以前无法实现的一系列新的用例,而这些用例与在基准测试中提升模型性能无关。Sam Altman在他的个人博客中指出,他们有一个明确的意图,“创建人工智能,然后其他人将使用它来创建各种我们都会受益的惊人的事物”。如果OpenAI的目标是继续降低成本并提高性能,那么这会导致什么结果呢?
让我们考虑一些新的用例。
实时计算机视觉用例
新的速度提升与视觉和音频的匹配最终为GPT-4开启了实时用例,这对于计算机视觉用例尤其令人兴奋。使用实时视图观察周围世界,并能够与GPT-4o模型交流意味着您可以快速收集情报并做出决策。这对于从导航到翻译再到指导说明以及理解复杂的视觉数据都非常有用。
以与极具能力的人交互的速度与GPT-4o交互意味着您将更少时间用于向我们人工智能输入文本,而将更多时间用于与周围世界进行互动,因为人工智能增强了您的需求。
单一设备多模态用例
使GPT-4o能够在台式机和移动设备(以及如果趋势继续,可穿戴设备,如Apple VisionPro)上运行,使您可以使用一个界面来解决许多任务。与其输入文本以提示您的方式不同,您可以显示您的桌面屏幕。您可以在同时提问的同时传递视觉信息,而不是将内容复制并粘贴到ChatGPT窗口中。这减少了在不同屏幕和模型之间切换以及提示需求以创建集成体验的困难。
GPT-4o的单一多模态模型消除了摩擦,增加了速度,并简化了将您的设备输入连接到模型以减少与模型交互的困难。
普通企业应用
随着额外模态融入到一个模型中,并提高性能,GPT-4o适用于企业应用程序流水线的某些方面,这些方面不需要对自定义数据进行微调。尽管成本要高得多,但更快的性能使GPT-4o更接近于在构建自定义视觉应用程序时具有用处。
您可以在尚未提供开源模型或经过微调的模型的情况下使用GPT-4o,然后在应用程序的其他步骤中使用您的自定义模型来增强GPT-4o的知识或减少成本。这意味着您可以快速开始原型设计复杂的工作流程,并且不会受到许多用例中模型能力的阻碍。
结论
对于构建人工智能应用程序的人来说,GPT-4o的最新改进是双倍速度,成本降低50%,速率限制提高5倍,128K上下文窗口和单一多模态模型都是令人兴奋的进步。越来越多的用例适合用人工智能来解决,而多个输入则为无缝界面提供了可能。
更快的性能和图像/视频输入意味着GPT-4o可以与自定义微调模型和预训练开源模型一起用于计算机视觉工作流程,从而创建企业应用程序。