国产大模型性能超越Sora：多模态领域迎来新突破

4.4K 0

本周开始，DeepSeek正式启动“开源周”，每天发布一个新项目，再次掀起全球大模型的开源热潮。记者观察到，此次开源活动与以往的推理模型开源有所不同，多模态领域的竞争尤为激烈，国产大模型更是展现出超越Sora的实力。

25日晚10点，阿里云宣布其视觉生成基座模型万相2.1正式开源。该模型采用最宽松的开源协议，提供14B和1.3B两种参数规格，并且能够处理文字生成视频和图片生成视频的任务。在性能方面，14B版本的万相2.1表现优异，在权威评测集Vbench中取得了86.22%的总分，超越了包括OpenAI Sora在内的多个国内外模型。尤为引人注目的是，1.3B版本可以在消费级显卡上运行，只需8.2GB显存即可生成480P视频，非常适合家庭和教学场景。

阿里云实现全模态、全尺寸大模型开源

随着万相2.1的开源，阿里云实现了全模态、全尺寸大模型的全面开源。目前，通义大模型的衍生模型数量已经超过10万个，成为全球最大的开源模型库。这一成就标志着阿里云在多模态领域的领先地位。

微软开源多模态智能体Magma

仅仅几个小时后，微软也在26日凌晨3点宣布开源多模态智能体Magma。Magma具备跨数字和物理世界的多模态能力，能够自动处理图像、视频、文本等多种类型的数据，并推测视频中人物或物体的意图和未来行为。官方演示显示，Magma可以与具身智能产生良好的协同效应，例如，用户可以让Magma指挥机器人“拿起桌子上的红色苹果并放入篮子中”。Magma通过视觉编码器识别红色苹果和篮子的位置，结合语言模型理解任务描述，最终指导机器人完成动作。

多模态大模型开源趋势明显

自春节以来，多模态大模型的开源趋势逐渐显现。不久前，上海的大模型初创企业阶跃星辰宣布开源视频生成模型阶跃Step-Video-T2V和语音交互大模型阶跃Step-Audio。据记者了解，开源一周以来，Step-Video-T2V吸引了海内外创作者生成视频超过13.6万次，并已接入全球领先的AI内容创作平台LiblibAI。这表明，多模态大模型在实际应用中的潜力巨大，正逐步改变人们的生活和工作方式。