关注我们
QRcode 邮件联系 新浪微博
首页 > 科技 » 正文

OpenAI推出全新大模型GPT-4o 音频处理方面提升显著

 小尚

【资讯】在今天凌晨的OpenAI发布会上,一款全新的大模型GPT-4o正式发布。该模型被命名为“o”,它代表了“omni”,意味着该模型具有全能的特点,能够实时对音频、视觉和文本进行推理,处理超过50种不同的语言,并且速度和质量大大提升。

与之前的模型相比,GPT-4o在音频处理方面有了显著的提升。GPT-3.5语音对话的平均延迟为2.8秒,而GPT-4仅为5.4秒。此外,GPT-4o可以在232毫秒内对音频输入做出反应,这使得它能够更好地理解和处理音频信息,甚至能够随意打断,与人类在对话中的反应时间相近。这彻底颠覆了以往的“语音助手”。

GPT-4o还具有出色的多语言处理能力。在直播现场,它能够轻松理解和翻译意大利语和英语,OpenAI宣称其能处理超过50种不同的语言,这使得它成为了一个理想的实时翻译工具。此外,它还能够处理来自不同语言背景的用户输入,无论是文本、音频还是图像,都能够得到高质量的处理和输出。

图源:视觉中国(VCG111465471109)

除了在音频和语言处理方面的提升,GPT-4o还具有更全面的功能。它能够接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出。这意味着人机交互更加自然、全面,用户可以更加灵活地使用该模型来满足自己的需求。

为了更好地服务广大用户,OpenAI还宣布将向免费用户开放GPT-4o的部分能力。然而,免费用户将受到数量的限制,当达到一定使用量后,将自动回落到使用GPT-3.5。不过,OpenAI表示,他们正在考虑在未来进一步改进和升级该模型,以提供更好的服务。

此外,OpenAI还宣布将开放GPT-4o的相应API给GPT的开发者。这个API的价格是GPT-4-turbo的一半,但速度却是GPT-4-turbo的两倍,速率限制也高5倍。这些开发者将有机会深入探索GPT-4o的各项功能,并将其应用到各种应用场景中。

OpenAI还宣布了另一个重要的消息,那就是他们将推出ChatGPT的桌面版应用,该应用目前仅支持MacOS版本,而Windows版则稍晚一些亮相。这一举措将使得用户能够更加方便地使用ChatGPT,无需下载和安装其他软件即可获得优质的服务。

OpenAI的全新升级模型GPT-4o在音频、语言和图像处理方面都有了显著的提升,使其成为一个全能、高效、灵活的工具。此前曾有生成式AI开源与闭源之争,目前来看OpenAI也并没有整出什么新活,其进步速度显著地慢下来了。尽管如此,我们也仍期待OpenAI生能取得进一步提升,为人们提供更加廉价高效、覆盖面更广的AI服务。

本文标签:
中国第一款百公斤级车载液氢诞生!重卡能跑1000+公里
奔驰暂停研发大型豪华电动汽车平台 因EQE/EQS销量不佳