关于我们 > 中行动态

【全球观察】Sora 掀起2024年文生视频AI热浪

林仲衡、林芷若 中银国际研究有限公司

随着OpenAI公司文字生成视频的AI产品Sora的发布,笔者预计人工智能产业将继续成为2024年的核心投资机会。Sora展示了远远超越同业的强大视频生成能力,可以预计未来在娱乐应用领域具有巨大潜力。尽管中国企业在“OpenAI-英伟达”这一产业链中的参与度普遍较低,但笔者预计文生视频领域AI的突破将继续拉动人工智能硬件基础设施的需求;同时笔者认为文生视频有带来更加丰富终端应用的潜力,终端应用的开发亦将充满投资机会。

技术革新 解决了核心难点

Sora是一种先进的扩散(Diffusion)模型,同时利用了通用GPT模型的Transformer架构,实现了生成高精度视频的能力。与传统方法不同,Sora从一个呈现为静态噪声的视频开始,通过多个步骤逐渐去除噪声,将其转变为连贯的视频。Sora的一个关键优势是其能够一次生成整个视频,或者扩展现有视频以使其更长。通过同时为模型提供多个预见帧,Sora解决了文生图AI的一个核心难点——当一个主体暂时消失时如何保持一致性。

为了实现更广泛的通用性,Sora将视频和图像数据用称为Patch的较小数据单元的集合来表示,类似于GPT中的Token。这种标准化的数据表达技术实现了在各种视觉数据上训练扩散Transformer,包括不同的视频时间、分辨率和宽高比。

Sora建立在DALL·E和GPT模型的研究基础上。它采用了DALL·E3中的字幕重标注技术,即在视觉训练数据生成描述性字幕。这种技术增强了模型在生成的视频中忠实地遵循用户指令的能力,从而产生更准确和连贯的输出。

此外,Sora不仅限于从文本生成视频。它还可以将静止的图像内容转化为一个细节完善栩栩如生的视频。此外,该模型还具有扩展现有视频或填充缺失帧的能力,进一步扩展了其应用范围。

Sora并不是文生视频技术的首发。2023年,Pika和Runway这样的AI产品已经令人印象深刻。然而OpenAI的Sora一经发布即以其优秀的技术完全打败了市场上所有的其他AI工具。与Pika和Runway这两个扩散AI模型相比,Sora可以生成更长(60秒对比5秒)、更高分辨率和更具沉浸感的视频。

笔者亦留意到Sora涌现非常多的技术能力。比如无需特别提示,模型可以自动创建不同的拍摄角度,同时视频中的物体在不同的拍摄角度中保持高度一致。在长视频中,虽然仍不够完美,Sora视频的连贯性和延续性令人印象深刻,人物与物体大致上可以在被遮挡或离开画面的情况下,仍保持存在。Sora亦可以模拟多个物体之间的复杂互动效果,显示出对物理世界规律的归纳。这些关键的技术能力使具创造力和沉浸感的视频生成成为了可能,让Sora在文生视频AI竞争中具有独特优势。

模型仍有待改善地方

OpenAI坦诚Sora仍存在许多不足。对Sora来说,模拟物体之间的复杂互动和多个角色之间的互动仍是具有挑战性的。它也可能无法理解一些基本的因果关系。笔者认为这显示出Sora对世界的理解仍是基于统计学的模仿行为,而非基于抽象理论的推理,这与其他基于Transformer和扩散的AI模型没有明显的区别。笔者预计随着时间的推移,Sora将继续显著改进,但笔者仍然认为人类距离通用人工智能(AGI)还有很长的路要走。根据Meta首席科学家Yann Le Cun的说法,当前的大语言模型缺乏以下3个方面的能力:

1)从现实世界(而不是文本)中学习;2)常识;3)记忆、推理和层次规划。AGI级别的AI应能够在模型参数有限的情况下实现高效学习和计划。

AI硬件基础设施投资值得留意

自2022年末以来,生成式AI在文生文(ChatGPT)和文生图(DALL·E、Mid-journey)方面取得了令人兴奋的发展。进入2024年,Sora在文生视频领域带来更巨大的突破。笔者认为Sora作为视频类应用,其商业潜力将更加巨大。类似TikTok和YouTube的视频应用纷纷在近年成为了全球最受欢迎的应用之一,本质是更快的带宽和更高的信息密度;视频类AI亦同理。笔者预计视频、游戏、电影和广告制作公司将是Sora的首批重要用户。Transformer与Diffusion的技术天花板仍未达到。笔者预计基于Transformer与Diffusion的AI将继续发展,下一个关键突破将是文生3D视频和文生交互式空间(亦称元宇宙)。

这条发展道路将继续带来对AI三要素—数据、算法和算力的巨大需求。AI硬件基础设施将继续是2024年投资的亮点,投资者应继续紧密关注OpenAI的产品发布。笔者认为全球企业担心在AI浪潮中落后的心理将持续推动对GPU和其他AI基础设施硬件的投资。