OpenAI新模型：图文音频全搞定，GPT-4o引领交互新时代

news/2024/10/10 22:18:36/文章来源:中华网

OpenAI新模型：图文音频全搞定

在周二凌晨1点的春季发布会上，OpenAI继“文生视频模型”Sora后再次为市场带来新惊喜。公司CTO米拉·穆拉蒂揭晓了与ChatGPT相关的多项更新，核心内容包括两大方面：一是推出了升级版的GPT-4o多模态大模型，该模型在速度与成本上优于GPT-4 Turbo；二是宣布ChatGPT免费用户也能享用GPT-4o模型，进行复杂数据分析、图像解析、在线搜索及应用商店访问等，预示着GPT应用商店即将迎来用户量的激增。

针对不同用户群体，OpenAI调整了消息限制策略，付费用户将享有更高额度的消息发送权限，而免费用户在配额耗尽后，系统会自动切换至GPT-3.5。未来一个月左右，Plus用户还将迎来基于GPT-4o优化的语音体验，尽管当前API尚未集成语音功能。此外，专为macOS设计的ChatGPT桌面应用即将面世，Windows版本预计年内推出，便于用户通过快捷键互动提问。

OpenAI新模型：图文音频全搞定，GPT-4o引领交互新时代

米拉·穆拉蒂强调，此次发布标志着公司在易用性上取得重要进展。在演示环节，GPT-4o展现了实时语音交互、情绪感知及多语言翻译等能力，如通过语音识别用户的紧张情绪并给予放松建议，以及实时提供数学问题解答等。GPT-4o还能检测面部表情以判断情绪，并有望与代码库互动，进行数据分析与图像解读。OpenAI新模型：图文音频全搞定。

OpenAI透露，GPT-4o的文本、图像输入功能即日上线，而语音和视频功能预计在未来几周内加入。尽管市场上关于生成式AI的投入与日俱增，2023年已达291亿美元，且预计市场规模将持续膨胀，但也引发了对技术偏见及未经充分测试服务快速普及的担忧。

自2022年11月亮相以来，ChatGPT用户量飞速增长，现接近1亿周活跃用户，深受《财富》500强企业青睐。穆拉蒂承诺，未来数周内，这些创新功能将面向大众开放。她还特别感谢了英伟达提供的先进GPU技术支持。

OpenAI介绍，GPT-4o在音频响应速度上实现了显著提升，最快可在232毫秒内作出反馈，更接近人类对话节奏。此模型整合了文本、音频、图像处理能力，为自然人机交互带来了质的飞跃。虽然目前仍处于探索阶段，GPT-4o展现的潜力预示着AI技术在多模态交互上迈出了重要一步。

责任编辑：卢其龙 CN070

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rllx.cn/RnuO/28897.gov.cn

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈邮箱:809451989@qq.com，一经查实，立即删除！