OpenAI新模型:图文音频全搞定
在周二凌晨1点的春季发布会上,OpenAI继“文生视频模型”Sora后再次为市场带来新惊喜。公司CTO米拉·穆拉蒂揭晓了与ChatGPT相关的多项更新,核心内容包括两大方面:一是推出了升级版的GPT-4o多模态大模型,该模型在速度与成本上优于GPT-4 Turbo;二是宣布ChatGPT免费用户也能享用GPT-4o模型,进行复杂数据分析、图像解析、在线搜索及应用商店访问等,预示着GPT应用商店即将迎来用户量的激增。
针对不同用户群体,OpenAI调整了消息限制策略,付费用户将享有更高额度的消息发送权限,而免费用户在配额耗尽后,系统会自动切换至GPT-3.5。未来一个月左右,Plus用户还将迎来基于GPT-4o优化的语音体验,尽管当前API尚未集成语音功能。此外,专为macOS设计的ChatGPT桌面应用即将面世,Windows版本预计年内推出,便于用户通过快捷键互动提问。
米拉·穆拉蒂强调,此次发布标志着公司在易用性上取得重要进展。在演示环节,GPT-4o展现了实时语音交互、情绪感知及多语言翻译等能力,如通过语音识别用户的紧张情绪并给予放松建议,以及实时提供数学问题解答等。GPT-4o还能检测面部表情以判断情绪,并有望与代码库互动,进行数据分析与图像解读。OpenAI新模型:图文音频全搞定。
OpenAI透露,GPT-4o的文本、图像输入功能即日上线,而语音和视频功能预计在未来几周内加入。尽管市场上关于生成式AI的投入与日俱增,2023年已达291亿美元,且预计市场规模将持续膨胀,但也引发了对技术偏见及未经充分测试服务快速普及的担忧。
自2022年11月亮相以来,ChatGPT用户量飞速增长,现接近1亿周活跃用户,深受《财富》500强企业青睐。穆拉蒂承诺,未来数周内,这些创新功能将面向大众开放。她还特别感谢了英伟达提供的先进GPU技术支持。
OpenAI介绍,GPT-4o在音频响应速度上实现了显著提升,最快可在232毫秒内作出反馈,更接近人类对话节奏。此模型整合了文本、音频、图像处理能力,为自然人机交互带来了质的飞跃。虽然目前仍处于探索阶段,GPT-4o展现的潜力预示着AI技术在多模态交互上迈出了重要一步。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rllx.cn/RnuO/28897.gov.cn
如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈邮箱:809451989@qq.com,一经查实,立即删除!