目前除OpenAI之外,谷歌、字节跳动等厂商均已推出具备文生视频能力的多模态模型。基于对StableVideo Diffusion、谷歌W.A.L.T以及其它文生视频模型的分析,我们认为高质量数据以及底层通用大模型是文生视频能力的重要决定因素,随着Transformer架构的引入,以及3D建模领域模型的迭代,2024年文生视频有望在时间长度、画面清晰度、内容逼真程度等方面实现显著迭代,打开商业化应用空间。
© 版权声明
免费分享是一种美德,知识的价值在于传播;
本站发布的图文只为交流分享,源自网络的图片与文字内容,其版权归原作者及网站所有。
THE END
暂无评论内容