在过去一周里,Sora成为了全球关注的热点,其热议程度超越了ChatGPT,尽管它还未向公众全面开放。Sora的出现不仅展示了视觉冲击力超越文字的力量,也引发了人们对于AI发展深一层的思考:在2024年,以Sora为代表的生成式AI或将引领我们迈向更加不可思议的未来。
不同于单纯的视频生成工具,Sora被视作一种“世界模型”。尽管AI生成视频并非新技术,但Sora在视频的长度与质量上实现了飞跃,超越了现有的文生视频模型,如Runway、Stability AI的产品,以及曾经引起轰动的Pika。
Sora的技术实力体现在六个关键方面: - 根据文本生成长达60秒的高质量视频,忠实地呈现用户指令。 - 能够生成包含复杂场景、角色互动、特定运动及精细背景的视频,增强叙事的真实感。 - 深入理解语言,准确把握提示内容的情感,使生成内容紧密贴合指令。 - 支持单个视频中多个镜头的创作,保持风格统一,适用于多视角展示。 - 能够基于静态图像生成动态视频,或扩展已有视频内容。 - 模拟物理世界运动,包括物体移动、相互作用等,体现了对现实世界的理解。
OpenAI在介绍Sora时,特别强调其“世界模型”的特性,这在以往模型发布中是首次。然而,这一提法也引起了科技界的广泛讨论,特别是围绕Sora是否真正理解物理世界,以及“世界模型”的确切含义。
一些专家,如英伟达的Jim Fan,认为Sora是一个可学习的物理模拟器,即“世界模型”。但图灵奖得主杨立昆则指出,仅凭生成逼真视频并不意味着理解物理世界,强调真正的“世界模型”应具备基于当前状态预测未来状态的能力,而Sora目前的自回归生成方式尚不足以完全达到这一标准。
Sora虽在文生视频领域树立了新的里程碑,但仍面临挑战,如物理交互模拟不精确、对象状态变化处理不当、长视频连贯性不足及对象突兀出现等问题,显示出在稳定模拟物理世界方面的局限。
整体而言,尽管AI视频生成技术在2023年取得显著进步,但仍未完全解决场景控制、时间连贯性和视频长度等核心问题。Sora的问世激发了人们对AI视频未来的无限遐想,同时也提示我们,如同牛顿之前的物理学,AI领域仍有许多基础科学问题等待破解。顶尖学者们,如李飞飞与吴恩达,均认为AI研究正处于一个类似“前牛顿时期”,强调智能科学的深层次探索与理论构建的迫切性。
随着Sora的发布,人们对于生成式AI的潜力抱持乐观态度,期待着未来AI能够像人类一样观察、感知并理解这个世界。这不仅是技术的飞跃,更是对人类智能科学边界的拓展,预示着一个激动人心的未来正逐步临近。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rllx.cn/Dqud/44734.gov.cn
如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈邮箱:809451989@qq.com,一经查实,立即删除!