2024Week09：人工智能行业深度报告：从Sora看多模态大模型发展

24年2月29日更新

08813

目前除OpenAI之外，谷歌、字节跳动等厂商均已推出具备文生视频能力的多模态模型。基于对StableVideo Diffusion、谷歌W.A.L.T以及其它文生视频模型的分析，我们认为高质量数据以及底层通用大模型是文生视频能力的重要决定因素，随着Transformer架构的引入，以及3D建模领域模型的迭代，2024年文生视频有望在时间长度、画面清晰度、内容逼真程度等方面实现显著迭代，打开商业化应用空间。

点此全屏阅读文档，可切换到演示模式