GPT-4o 是 OpenAI 最新发布的旗舰AI模型,能够实时进行音频、视觉和文本推理等多模态交互,该模型可以实时响应用户对话,甚至在语音对话中能捕捉用户声音中的情感,并生成 “一系列不同情感风格 ”的语音,极大地改善了 ChatGPT 的体验,让用户可以像与真人对话一样与 ChatGPT 互动。

GPT-4o 文本和图像输入将于今天(5月13日)开始在 API 和 ChatGPT 中推出,并且向所有用户免费开放 试用,语音和视频模式将在未来几周内推出。
✅ 多模态人机交互
GPT-4o 是朝着更自然的人机交互迈出的一步——它接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合输出。
✅ 实时的对话响应
GPT-4o 可以在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间(在新窗口中打开)相似。
✅ 拟人的语音交互
GPT-4o 的语音对话带有语气和情感,可以识别用户心情状态并模拟人与人的自然交流,可以讲故事、可以唱歌、可以drama、可以学机器人发音等等。
✅ 摄像头视觉感知
GPT-4o 可以通过摄像头实时感知并理解文字、影像等内容,比如通过视频镜头解答数学题目或分析人物, “这道数学题该怎么做 “、 “这个人穿的是什么牌子的衬衫?”,并且可以语音回答讨论。
✅ 多语言同声传译
GPT-4o 支持超过50种语言的实时翻译,可以根据接收到的语言灵活应对,比如英语与意大利语实时同声传译。
✅ 模型安全性升级
GPT-4o 通过过滤训练数据和通过后训练优化模型行为等技术,在各个模态中内置了安全性。我们还创建了新的安全系统,为语音输出提供护栏。
✅ API 接口升级
在 API 使用方面,GPT-4o 的价格是GPT-4-turbo的一半,响应速度是 GPT-4-turbo 的两倍,同时使用限额也比 GPT-4-turbo 提高了5倍。
在传统基准测试中,GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力上创下了新的高水准。
✴️ 文本推理评估
GPT-4o 在 5 次 MMLU(常识问题)测试中创下了 87.2% 的新高。
✴️ 音频 ASR 性能
GPT-4o 在所有语言中显著提高了 Whisper-v3 的语音识别性能,特别是对于资源较少的语言。

✴️ 音频翻译性能
GPT -4o 在语音翻译方面树立了新的领先水平,并在 MLS 基准上超越了 Whisper-v3。

✴️ M3Exam 零样本结果
M3Exam 基准既是多语言评估,也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时包括图形和图表。GPT-4o 在所有语言的这个基准上都比 GPT-4 更强。

✴️ 视觉理解评估
GPT-4o 在视觉感知基准上实现了最先进的性能,各个指标都超过 GPT-4、Gemini Pro、Claude Opus等模型。

GPT-4o 的文本和图像功能将于今天(5月13日)开始在 ChatGPT 中推出,OpenAI 将在免费套餐中提供 GPT-4o,并为 Plus 用户提供高达 5 倍的消息限制。未来几周内会在 ChatGPT Plus 中推出带有 GPT-4o 的新版语音模式。
开发人员现在还可以在 API 中以文本和视觉模型的形式访问 GPT-4o。与 GPT-4 Turbo 相比,GPT-4o 的速度提高了 2 倍,价格降低了一半,使用限额提高了 5 倍。OpenAI 计划在未来几周内向 API 中的一小部分可信赖合作伙伴推出对 GPT-4o 的新音频和视频功能的支持。
暂无数据