Sora引爆AI视频革命中美差距扩大好莱坞与AI创业公司危局与机遇并存

OpenAI发布的Sora模型在AI视频生成领域实现突破,引发了对中美AI差距、好莱坞未来及AI创业公司生存空间的讨论。Sora虽有局限,但其技术进步为产业带来机遇,懂场景、懂模型的创造者将迎来更多发展空间。AI或将助力电影人创作更好作品,而非取代他们。掌握模型、了解应用的创业公司仍大有可为。
Sora引爆AI视频革命中美差距扩大好莱坞与AI创业公司危局与机遇并存

OpenAI于2月16日凌晨发布的Sora,无疑在AI视频生成领域投下了一颗重磅炸弹。这项技术突破将扩散模型与Transformer架构巧妙结合,预示着视觉生成领域即将迎来一场前所未有的技术和商业变革。Sora的出现,不仅引发了人们对未来视频创作方式的无限遐想,也引发了关于中美AI差距、好莱坞的未来以及AI视觉创业公司生存空间的深刻讨论。

Sora:重新定义AI视频生成标准

Sora并非简单的技术升级,而是在多个维度上对现有AI视频生成模型进行了颠覆性创新:

  • 视频时长突破: Sora将视频生成时长从以往的5-15秒直接提升至1分钟,这一突破使其完全能够满足短视频创作的需求。OpenAI的官方文章暗示,未来Sora甚至可以生成更长时间的视频,潜力无限。
  • 多镜头一致性: Sora能够生成包含多个镜头的视频,并确保各个镜头在角色和视觉风格上保持高度一致性,从而提升视频的叙事连贯性和观赏性。
  • 多模态编辑能力: Sora不仅支持通过文字prompt生成视频,还能够进行视频到视频的编辑,甚至可以高质量地生成图片。更令人惊叹的是,Sora可以将完全不同的视频片段拼接在一起,使其无缝衔接,浑然一体。
  • 世界模型的雏形: Sora基于扩散模型,更是一个扩散+Transformer的视觉大模型。它所产生的"涌现"现象,使其对现实世界有了更深刻的理解和互动能力,初步具备了世界模型的雏形。

Sora的强大能力:逼真、一致、无缝

OpenAI官方发布的示例视频充分展示了Sora的强大能力:人物的瞳孔、睫毛、皮肤纹理都逼真细腻,几乎无法分辨真伪,AI生成视频的真实性实现了史诗级的飞跃。从无人机视角俯瞰的东京街头,Sora在复杂场景和人物动作自然度方面的优势一览无遗。在山道上穿梭的复古SUV,其细节的真实度令人惊叹。Sora还可以在两个输入视频之间实现平滑过渡,创造出主题和场景截然不同的视频之间的无缝衔接。

扩散模型+Transformer:Sora背后的技术原理

OpenAI团队从大语言模型的训练中汲取灵感,将视觉数据分割成数据块,类似于大语言模型中的tokens。他们首先将视频压缩到较低维度的隐式特征,然后分解为时空数据块。这些数据块的作用类似于tokens在大语言模型中的作用,用于训练Sora。

简单来说,Sora将图片和视频都进行了"token化"处理。Sora是一个基于扩散模型的视频模型,但更重要的是,它是一个扩散Transformer模型。Transformer已经证明了其在统一语言、视觉和图像生成方面的强大能力。Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,并通过GPT的能力,使模型能够更准确地遵循用户的文本指令生成视频。

因此,Sora可以被理解为一个扩散模型+Transformer的视觉大模型。除了根据文本指令生成视频外,Sora还能将现有的静态图像转化为视频,赋予图像中的内容以生动的动画。此外,Sora还可以扩展现有视频或补全缺失的帧。

Sora的局限性:仍需完善

尽管Sora在技术和性能上取得了巨大进步,但它仍然存在一些局限性。例如,在理解复杂场景的物理原理、因果关系、空间细节和时间推移方面,Sora仍有不足。它可能无法很好地表现玻璃破碎的效果,或者在吹蜡烛前后,火焰没有发生任何变化。此外,Sora甚至可能会搞错人在跑步机上跑步的方向。

OpenAI目前只提供了生成的视频展示,并未正式对外开放Sora的使用,而是选择了一批"受信任"的专业人士进行测试。这一举措也反映了OpenAI对滥用视频生成技术的担忧。

Sora引发的产业机会:挑战与机遇并存

Sora的发布不仅是一项里程碑式的技术进步,也为相关产业带来了巨大的机遇。然而,在视频应用的场景中,仅仅能够展示还远远不够。要实现商业化,需要达到更高的标准。以往人工可以做到90分,而Sora的出现只解决了60分的技术问题,甚至可能只达到了75分。因此,仍然需要依靠人工或技术与商业创新相结合,才能完成商业化的最后一步。

  • 可控性: 无论是商业场景还是创作场景,如何让视频按照人的意志或规律完成动作,仍然是一个巨大的挑战。
  • 物理模型: 目前的Sora能够生成精美的视频,但如果要展示特定场景,例如皮球掉到地上反复弹跳,则需要物理模型的支撑,而Diffusion+Transformer目前还无法完全解决这个问题。
  • Prompt的挑战: 如何编写有效的prompt仍然是一项技术活。在视觉领域,非专业人员很难用好视觉生成工具。这既需要训练,也需要技术突破,让外行也能轻松上手。

因此,面向实用场景的创作仍然有很大的空间。在Sora的75分基础上,场景创新将迎来更多机会。这些机会将属于那些既懂场景又懂模型的创造者。

对于好莱坞而言,Sora等AI工具的出现,更多的是提高了实现指定场景的效率。像王家卫这样的大导演,其独特的艺术风格和对细节的把控,目前仍然是机器无法替代的。AI很可能会推动电影人创造出更好的作品,而不是取代他们。

AI创业公司:危中有机,各显神通

Sora的出现,是否意味着AI创业公司将面临灭顶之灾?答案并非如此。

美国的商业生态有一个显著的特点:一流公司做平台,二流公司做全线产品,三流公司搞客户。OpenAI的Sora是一个伟大的工程进步,但距离商业化仍然有一段距离。领先的公司将在关键领域确保自己的领导地位,突破技术,建立平台,也会做垂类应用,但更重视吸引广大开发者参与,而不是包揽所有应用。

因此,在Sora的60分之上,仍然有很大的发展空间。看看Salesforce上的数千个应用就知道了。此外,根据OpenAI的论文,支持60秒视频的路径已经非常清晰,这无疑帮助许多创业公司节省了大量的探索成本,同时也为创业者提供了更大的想象空间。

如果只需要15秒的视频,如果需要提高视频主体的高度可控性,如果需要控制主体在视频中的路径,是否会有其他的选择?Diffusion Transformer是否有更好的用法?模型能力决定了一个创业团队的高度,在60分之上,模型支撑的应用将决定胜负。掌握模型、了解应用的创业公司将大有可为。

在美国市场,大型公司通常会选择通过兼并收购来缩小差距。小团队跑得快,起步快,因此更容易被大公司收购。而在中国,兼并收购并不那么活跃,大型公司更倾向于自己下场做所有事情。然而,OpenAI发展如此迅速,赛道如此广阔,机会层出不穷,大型公司难免会有其他的想法。

总而言之,Sora的出现,既带来了挑战,也带来了机遇。这是一个让各方势力共同奔向光明的竞技场。