Sora基于DiT架构,采用Transformer替换U-Net。Sora实际上是一种基于DiT(Diffusion Transformer,扩散变换器)的模型搭建,同时采用了Diffusion与Transformer,是一种用于扩散模型的新架构。Sora受到大语言模型的启发,用Transformer替换扩散模型中的U-Net,通过将Transformer与Diffusion结合成为一种基于扩散变换的模型DiT,趋于标准Transformer架构,同时保留其可扩展性。与大语言模型将文本转换为可被理解的token类似,Sora将视频转换成一系列Patch(视觉编码块)并将其进行降维,用Patch作为视觉图像统一表现形式,将噪声通过去噪来预测原始图像信息,进而生成视频。
© 版权声明
免费分享是一种美德,知识的价值在于传播;
本站发布的图文只为交流分享,源自网络的图片与文字内容,其版权归原作者及网站所有。
THE END
暂无评论内容