AI视觉领域重大突破:豆包VideoWorld模型引领纯视觉信号学习新时代
2月10日,A股视觉认知概念股午后大幅走强,创业板星宸科技直线拉升涨停,全志科技、富瀚微、虹软科技等也纷纷大幅冲高。这一波涨势的背后,是豆包最新发布的视频生成实验模型“VideoWorld”。该模型在业界首次实现了无需依赖语言模型,仅通过“视觉信息”即可认知世界的壮举。
创新点:纯视觉信号学习
VideoWorld的核心创新在于它完全摒弃了语言或标签数据,专注于纯视觉信号的学习。这意味着,VideoWorld可以通过浏览视频数据,让机器掌握推理、规划和决策等复杂能力。团队在300M参数量的条件下进行了实验,结果显示,VideoWorld已经取得了令人瞩目的表现。目前,项目代码与模型均已开源。
技术原理:潜在动态模型(LDM)
VideoWorld基于潜在动态模型(Latent Dynamics Model,LDM),能够高效压缩视频帧间的变化信息。这种技术不仅保留了丰富的视觉信息,还压缩了关键决策和动作相关的视觉变化,从而显著提升了知识学习的效率和效果。值得注意的是,VideoWorld在不依赖任何强化学习搜索或奖励函数机制的情况下,达到了专业5段9×9围棋水平,并能够在多种环境中执行机器人任务。
面临的挑战
尽管VideoWorld表现出色,但在真实世界环境中的应用仍然面临一些挑战。视频中存在大量冗余信息,这大大影响了模型的学习效率,使得视频序列的知识挖掘效率显著落后于文本形式,不利于模型对复杂知识的快速学习。因此,如何提高高质量视频生成和多环境泛化能力,仍然是亟待解决的问题。
未来展望
大模型的视觉理解能力一直是AI领域的前沿研究方向。AI视觉学习的目标是使大模型能够理解物品、空间和场景的整体含义,并根据识别内容进行复杂的逻辑计算,进而更细腻地表述并创作。AI视觉学习能力的提升,有望催生更多的AI应用场景。
行业趋势
长城证券此前发布的研报指出,国内AI大模型的多模态能力正在持续提升,如快手可灵AI大模型、字节豆包AI大模型等视频生成效果正在不断优化,包括精准语义理解、一致性多镜头生成和动态运镜等方面。随着底层技术能力的升级,国内AI应用也在持续迭代,token调用量持续增长,AI应用前景广阔。