AI已经能模拟真实世界了吗 Sora开启视觉震撼新纪元

news/2024/10/8 13:32:40/文章来源:中华网

在过去一周里，Sora成为了全球关注的热点，其热议程度超越了ChatGPT，尽管它还未向公众全面开放。Sora的出现不仅展示了视觉冲击力超越文字的力量，也引发了人们对于AI发展深一层的思考：在2024年，以Sora为代表的生成式AI或将引领我们迈向更加不可思议的未来。

不同于单纯的视频生成工具，Sora被视作一种“世界模型”。尽管AI生成视频并非新技术，但Sora在视频的长度与质量上实现了飞跃，超越了现有的文生视频模型，如Runway、Stability AI的产品，以及曾经引起轰动的Pika。

Sora的技术实力体现在六个关键方面： - 根据文本生成长达60秒的高质量视频，忠实地呈现用户指令。 - 能够生成包含复杂场景、角色互动、特定运动及精细背景的视频，增强叙事的真实感。 - 深入理解语言，准确把握提示内容的情感，使生成内容紧密贴合指令。 - 支持单个视频中多个镜头的创作，保持风格统一，适用于多视角展示。 - 能够基于静态图像生成动态视频，或扩展已有视频内容。 - 模拟物理世界运动，包括物体移动、相互作用等，体现了对现实世界的理解。

OpenAI在介绍Sora时，特别强调其“世界模型”的特性，这在以往模型发布中是首次。然而，这一提法也引起了科技界的广泛讨论，特别是围绕Sora是否真正理解物理世界，以及“世界模型”的确切含义。

一些专家，如英伟达的Jim Fan，认为Sora是一个可学习的物理模拟器，即“世界模型”。但图灵奖得主杨立昆则指出，仅凭生成逼真视频并不意味着理解物理世界，强调真正的“世界模型”应具备基于当前状态预测未来状态的能力，而Sora目前的自回归生成方式尚不足以完全达到这一标准。

Sora虽在文生视频领域树立了新的里程碑，但仍面临挑战，如物理交互模拟不精确、对象状态变化处理不当、长视频连贯性不足及对象突兀出现等问题，显示出在稳定模拟物理世界方面的局限。

整体而言，尽管AI视频生成技术在2023年取得显著进步，但仍未完全解决场景控制、时间连贯性和视频长度等核心问题。Sora的问世激发了人们对AI视频未来的无限遐想，同时也提示我们，如同牛顿之前的物理学，AI领域仍有许多基础科学问题等待破解。顶尖学者们，如李飞飞与吴恩达，均认为AI研究正处于一个类似“前牛顿时期”，强调智能科学的深层次探索与理论构建的迫切性。

随着Sora的发布，人们对于生成式AI的潜力抱持乐观态度，期待着未来AI能够像人类一样观察、感知并理解这个世界。这不仅是技术的飞跃，更是对人类智能科学边界的拓展，预示着一个激动人心的未来正逐步临近。

责任编辑：乔娇 TT0002

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rllx.cn/Dqud/44734.gov.cn

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈邮箱:809451989@qq.com，一经查实，立即删除！