2024Week11人工智能AI：互联网传媒行业深度报告：多模态技术加速，AI商业宏图正启

24年3月17日更新

010411

多模态大模型的技术脉络与前进方向：（1）视觉模型：数据与算法往往同步发展，大型高质量数据集是模型突破重要基础，而近年视觉算法在泛化性、可提示性、生成质量和稳定性等方面突破将推动技术拐点到来以及爆款应用出现。其中2D图像生成引领视觉模型前进方向，由于2D图像生成是视觉模型中要求相对较低的领域，因此更容易实现技术突破，也出现了midjourney这类爆款应用，其兼顾使用门槛及生成效果，数据飞轮效应开始体现。文生图成本仍有优化空间，其中通用类应用由于需求相对刚性且有较强的付费意愿，盈利领先。3D资产生成、视频生成等领域受益于扩散算法成熟，但数据与算法难点多于图像生成，其中视频生成当前可类比2D图像生成的2021年（已有上亿规模数据集、扩散模型取得突破），且考虑到LLM对AI各领域的加速作用以及已出现较好的开源模型，2024年行业或取得更大的发展。3D资产生成则相对更加早期。（2）听觉模型：数据仍有缺口，23年以来技术有所突破。未来技术成熟后可为企业/内容制造商/娱乐应用提供高性价比的音乐作品，或基于娱乐属性向C端收费。（3）具身智能：相对远期，AI+机器人实现与现实世界交互。

点此全屏阅读文档，可切换到演示模式