OpenAI推出全新大模型GPT-4o 音频处理方面提升显著--商业世界

OpenAI推出全新大模型GPT-4o 音频处理方面提升显著

小尚 2024-05-14

【资讯】在今天凌晨的OpenAI发布会上，一款全新的大模型GPT-4o正式发布。该模型被命名为“o”，它代表了“omni”，意味着该模型具有全能的特点，能够实时对音频、视觉和文本进行推理，处理超过50种不同的语言，并且速度和质量大大提升。

与之前的模型相比，GPT-4o在音频处理方面有了显著的提升。GPT-3.5语音对话的平均延迟为2.8秒，而GPT-4仅为5.4秒。此外，GPT-4o可以在232毫秒内对音频输入做出反应，这使得它能够更好地理解和处理音频信息，甚至能够随意打断，与人类在对话中的反应时间相近。这彻底颠覆了以往的“语音助手”。

GPT-4o还具有出色的多语言处理能力。在直播现场，它能够轻松理解和翻译意大利语和英语，OpenAI宣称其能处理超过50种不同的语言，这使得它成为了一个理想的实时翻译工具。此外，它还能够处理来自不同语言背景的用户输入，无论是文本、音频还是图像，都能够得到高质量的处理和输出。

除了在音频和语言处理方面的提升，GPT-4o还具有更全面的功能。它能够接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出。这意味着人机交互更加自然、全面，用户可以更加灵活地使用该模型来满足自己的需求。

为了更好地服务广大用户，OpenAI还宣布将向免费用户开放GPT-4o的部分能力。然而，免费用户将受到数量的限制，当达到一定使用量后，将自动回落到使用GPT-3.5。不过，OpenAI表示，他们正在考虑在未来进一步改进和升级该模型，以提供更好的服务。

此外，OpenAI还宣布将开放GPT-4o的相应API给GPT的开发者。这个API的价格是GPT-4-turbo的一半，但速度却是GPT-4-turbo的两倍，速率限制也高5倍。这些开发者将有机会深入探索GPT-4o的各项功能，并将其应用到各种应用场景中。

OpenAI还宣布了另一个重要的消息，那就是他们将推出ChatGPT的桌面版应用，该应用目前仅支持MacOS版本，而Windows版则稍晚一些亮相。这一举措将使得用户能够更加方便地使用ChatGPT，无需下载和安装其他软件即可获得优质的服务。

OpenAI的全新升级模型GPT-4o在音频、语言和图像处理方面都有了显著的提升，使其成为一个全能、高效、灵活的工具。此前曾有生成式AI开源与闭源之争，目前来看OpenAI也并没有整出什么新活，其进步速度显著地慢下来了。尽管如此，我们也仍期待OpenAI生能取得进一步提升，为人们提供更加廉价高效、覆盖面更广的AI服务。

本文标签：

商业世界

值得细品的演技派！徐洁儿新剧《执行法官》秦虹酷飒上线

美的楼宇科技助力李宁，共塑ESG绿色智慧零售未来

钇无止境，爱无边界 ---- 钇无止境百万医疗险合作签约造福患者家庭

库卡KR Cybertech-2全新系列机器人隆重登场

复星旅文加大冰雪战略，宣布轻资产运营太仓阿尔卑斯国际度假区二期项目

OpenAI推出全新大模型GPT-4o 音频处理方面提升显著