新闻中心 分类>>

彩神为什么说 Sora 是世界的模拟器?

2024-02-22 16:26:39
浏览次数:
返回列表

  彩神前文提到如果视频生成模型要成为世界的模拟器,那它生成的视频必须得符合物理规律。我们可以从大量的视频数据里学习这些规律,也可以直接继承语言模型里海量的常识,而继承这些常识会大大降低对视频数据的质量和数量的需求,也会大大降低模型学习的难度。

  比如,如果我们让 Sora 生成一只杯子掉在地板上的视频。今天的大语言模型,比如出门问问的「序列猴子」,就含有玻璃会碎、水会溅出等常识(见下图)。

  有了这些常识,视频生成模型将不再需要大量的类似玻璃掉地的视频数据来训练,从而大大降低了生成逼真视频的难度。语言模型还包含了对其它物理规律(比如声光电、碰撞等)的各种描述。

  所以,如果 Sora 训练的基础是一个语言模型,这个模型不仅仅处理文本数据,而且继承了对世界常识的理解。

  通过引入多模态数据处理能力——特别是视频与文本对应的数据—— Sora 能够实现更深层次的 Grounding,即将语言的虚拟概念与物理世界的具体实例紧密关联。

  这种能力使得 Sora 在模拟物理世界时,能够更准确地反映出现实世界的复杂性和多样性。具象的视频训练数据总是有限的,因此模型所能学到的物理现象总有局限。

  但语言模型中的物理常识几乎是面面俱到的,这是由语言作为思维认知模型的本性所决定的。这种知识迁移弥补了视频数据不可能面面俱到的短板。

  语言模型是多模态大模型的核心,必将居于独一无二的中心赋能地位。而「视频」作为物理世界的映像,是世界模型渲染出来的结果。

  相比语言数据,通过视频大数据学习到的模型是 模型的模型 ,同时学到了很多物理世界规律,让模型更加逼近模拟物理世界。

  文本与视频的区别在于,前者是理解人类的逻辑思维,后者在于理解物理世界。所以,视频生成模型 Sora 如果能很好跟文本模型 LLM 融合,那它真有望成为世界的通用模拟器。如果有一天,这样的系统自己通过模拟驾车场景,学会了在城市复杂的交通环境下开车,我们应该也不会奇怪。

  我们认为,Sora 之所以有潜力成为下一代物理世界模拟器的翘楚,主要归功于其基于多模态大模型的设计理念及其实现中巨大算力和工程能力。

  Sora 在视频赛道重现 ChatGPT 式的成功,很可能得力于其把虚拟世界的模型(LLM)落地到具象化的物理世界模型(视频生成),如果现在不是这样,将来也大概率是。

  类比语言模型,面对 ChatGPT 的对答如流、通情达理,我们反思语言模型到底是否学会了 思维 和 理解 ?

  虽然尚无法从原理上解释,但从结果上看,它与基于对语言的深刻理解所呈现出来的行为是一致的,我们可以认为它其实已经学会了虚拟世界的 思维 和 理解 ;那今天的 Sora 已经可以在长时空的范围里生成不违反物理规律和常识的视频,我们是否也可以认为,它已经理解了物理世界?它具备了世界模型的能力?

  如果 Sora 深度融合 LLM (如 ChatGPT)被认知智能充分赋能,它的确有望成为「世界的模拟器」。除此之外,还有其他成为世界模拟器的可能性解法吗?另外一种可能是:ChatGPT + UE。

  如果我们能把自然语言模型(如 ChatGPT)与物理渲染引擎(如 UE)结合起来,把自然语言模型的描述转换成 UE 的描述语言,然后由 UE 来渲染出视频,是不是也意味着一个可行的物理世界模拟器?

  在很多对通用性的要求不那么高的场景中,这可能是优于 Sora 这种端到端模型的选择,估计未来很快会看到这样的尝试。但是,UE 的天花板就是整个系统的天花板。

  另外一个相关话题,Sora 的训练可能用了 UE 合成的数据,但 Sora 模型本身应该没有调用 UE 的能力。

  如果说这个世界(无论是虚拟世界还是物理世界),其背后存在着简单的规律和模型,那么文本和视频等模态就是这些规律的具体呈现,也可以说是渲染。

  OpenAI 的 ChatGPT 和 Sora 通过互联网上海量的自然的文本和视频数据, 隐式 地学会了这些数据背后的规律和模型。那么,未来是否有一天,ChatGPT 和 Sora 之类的系统还将融合味觉、触觉等其他模态,从而可以模拟我们的整个世界呢?

  如果这一天到来,什么是现实呢?我们是否还那么坚定地相信我们这个物理世界不是被模拟出来的?科幻电影 Matrix 所描述的世界是否仍是科幻呢?这是现代版的庄周梦蝶,古老的哲学思辨在后现代的技术浪潮中再度冲击我们的信仰,细思有点恐。

  展开想象,为什么 AI 模拟器不可以模拟巴以冲突、中美关系,模拟人类从山顶洞走向农耕文明的过程呢?「世界模拟器」通过模拟不同的事件和情景,预测未来的发展趋势,或可辅助决策制定。Sora 类不仅能够模拟政治经济、人类社会等宏观层面的动态,也应该可以深入到病毒传播、交通规划等微观领域彩神。这一切最终是否会改变各种学科研究的方式?

  我们可以展望,AI 有能力通过模拟学会各种物理世界的技能。比如城市驾驶,AI 可以从文本里学到各种驾驶规则,自己渲染一些交通视频场景并在这些场景里学习提升,从而学会基本驾驶技能。当然,模型最后还是会有真正物理环境下的 Fine Tuning。如果机器人能够自主学习各种技能,这是否也会改变机器人服务世界的发展路径?

  总之,如果未来的 AI 既理解了人类思维,又理解了物理世界,而且还不知疲倦自主模拟学习,下一步将会 涌现 怎样的斑斓世界?人类如何自处?

  回看 OpenAI 的最初胜利,主要并非算法上的创新,而是「暴力美学」的胜利。

  如今,以 GPT 为代表的「暴力美学」已成为工业界凝聚了共识的做 AI 的方法论:把模型架构做得简简单单,但足够通用,然后把精力放在猛搞数据和算力上。

  这一次 Sora 的成功延续了 OpenAI 的暴力美学的套路。把 Diffusion Model 里的 Unet 换成 Transformer、把视频的时空 Patch 转换成 Token 等之类的想法应该很多人拍脑袋都能想到彩神,都是对模型的简化从而更便于 Scale Up。但是,能够坚信这些简单的 ideas、并有能力和有条件把规模真正做上去修成正果的却是凤毛麟角。

  OpenAI 这次关于 Sora 的技术 blog 里的两段话,把这种信念的力量体现得淋漓尽致。

  第一段话表达了他们对 Scaling 的信念,而第二段话强调了 Scaling 导致涌现的实证。

  这次 Sora 的发布又让很多人对 AGI 的实现更加乐观了,可能也让心高气盛的 OpenAI 对 Scaling Law 和暴力美学的信念进一步坚定。但是,沿着 Scaling Law 和暴力美学一定能抵达 AGI 吗?面对飞速发展的 AI 科技,也许只能拷问自己,到底是因为看见而相信,还是因为相信而看见?

  可以肯定的是,Sora 如果真能实现对物理世界的模拟、能够跟 LLM 代表的虚拟世界无缝融合,那它必然是通往 AGI 路上的里程碑。

  当我们回到人类文明的前夜,从用石头砸开坚果,从山洞走向茅屋,一一回望人类最早的科技成就——石制工具、火、衣服、长矛和弓箭是如何被发明的。正是有了让能力边界不断延伸的它们,人类才得以走出非洲。

  其中最重要的一项能力——语言能力,它使现代智人能有效传递信息,不断完成物理世界的任务,最终将尼安德特人赶到比利牛斯半岛的尽头,成为世界主人。

  而今天,掌握人类语言的 AI,将能进一步地通过视频生成模拟世界,面向我们为之雀跃的 AGI 时刻,是否已是另一种文明的前夜?

搜索