2024Week13人工智能AI：AI模型系列报告：从世界模型看算力需求变化

24年4月4日更新

08515

从架构上看，视频生成模型的技术路线开始收敛，Sora的Diffusion Transformer架构证实了有效scale-up也即是增加算力能够对提升视频生成的精细度和效果，是视频生成领域的”GPT-3时刻”。类似于GPT-3证明了更大的训练量、模型参数量、Token数量，训练效果越好。引入了Transformer的Sora也表现出了同样的趋势，OpenAI进行了32x训练量和1x、4x训练量的对比，从结果上看，32x训练量的生成效果远远强于1x和4x的生成效果。在Sora发布后Google、Snap也发布了采用类似技术的视频生成模型，确定了Diffusion Transformer的视频生成路线，并且算力的需求会大大提升。　　

从数据上看，高质量的数据对视频生成模型的训练至关重要，Sora利用自有工具增强训练数据集与提示工程。OpenAI训练了专用的视频字幕模型来为视频生成详细描述，生成高质量的视频-字幕对，用于微调Sora以提高其指令跟随能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致，Sora执行了一个额外的提示扩展步骤，即调用GPT-4V模型将用户输入扩展到详细的描述性提示。

点此全屏阅读文档，可切换到演示模式