首页 实时讯息 小说推荐
当前位置: 首页> 实时讯息>

智源大会前线速写:多模态模型的“ChatGPT时刻”还未到来

时间:2025-06-08 14:05:00

图片来源:视觉中国

蓝鲸新闻6月8日讯(记者 朱俊熹)回顾生成式AI的演进历程,除大语言模型的爆发外,还有一条并行推进的技术路线:多模态大模型。过去一两年间,多模态路线上先后出现OpenAI的视频生成模型Sora、4o图像生成功能等重要里程碑。但在6月6日至7日的2025北京智源大会上,业界人士的主流观点是:属于多模态的“ChatGPT时刻”尚未到来。

智源研究院院长王仲远表示,当前的多模态模型大多是对静态画面的理解,描述的是存在的事实。但人类对多模态的理解并不是基于单帧图像的描述,而是可以从一个画面预测下一个可能的画面。“当我手接近水时,可以预测我要拿水;如果不小心把它碰倒在地板上时,会预测水洒下去。如果没有盖子,地板会被水洒湿。”

在AI视频创企Sand.ai创始人兼CEO曹越看来,要想精准地预测并生成未来的视频内容,关键在于对过去视频内容的充分理解。为此,Sand.ai将主要探索方向押注在自回归这一技术路径上。当下的多模态生成领域中,DiT架构,即基于Transformer架构的扩散模型是主流选择。如果说DiT是逐步去噪来还原图像或视频,自回归则是按顺序逐帧、逐块地生成图像或视频。

曹越指出,沿着DiT架构方向会发现,随着模型大小提升,将快速达到瓶颈,需要找到可扩展的解决方案。如果将自回归的思路引入视频生成方向,可能会有显著不同的体验。其训练方式本质就是基于之前一段视频,来生成未来的一段视频。因此生成视频时长可从现在的5秒提升至几分钟,存在较大的技术提升空间。

今年4月,OpenAI研究科学家姚顺雨的一篇长帖曾引发热议。他表示,AI已进入下半场,重心将从解决问题转向定义问题。在智源大会分论坛上,AI视觉领域的明星创企Luma AI首席科学家宋佳铭直言,“上下半场”的划分更像是在描述语言模型。如果上半场是预训练,下半场是推理,目前多模态模型还未能很好地解决上半场的问题。

宋佳铭解释称,对于上半场的期望是,多模态模型能够通过一个大一统的模型,像人一样处理不同模态的任务,并且保持足够快的推理速度。这个模型应当具备多模态思维链,否则在下半场无法真正打通推理能力。

如果从多模态模型的应用落地角度来看,腾讯混元多模态生成负责人芦清林认为,上下半场的分界线并不清晰。“因为五分的模型对应五分的用法,八分的模型对应八分的用法。”他表示。一个判定信号是,专业领域的人是否开始使用这项技术。即便技术研发人员认为模型还存在很多可改进的地方,如果专业人员已经开始采用,并且觉得能在实际工作中带来提效或帮助,那么它已经达到了能带来实际改变的阶段。

字节跳动Seed图像&视频生成负责人黄伟林则分享了判断技术商业化程度的三个数据指标。一是效率数据,如用户在使用AI生图时,生成多少张图片会下载一张。二是APP上的用户留存数据。三是收入数据,他指出头部AI视频产品ARR(年度经常性收入)年底有望达到1亿美元或更多,明年将可能实现5到10倍的增长。

在技术和商业的结合层面,Sand.ai联合创始人张拯强调,应当追求有效的Scaling Law。即在扩展模型规模、提升性能时,由此带来的用户价值和经济回报是否足以覆盖所投入的资源成本。如果模型能力提升的代价过高,用户得不到对应的回报,那么从商业角度来看,这样的Scaling就是无效的。