国产大模型性能超越Sora:多模态领域迎来新突破
本周开始,DeepSeek正式启动“开源周”,每天发布一个新项目,再次掀起全球大模型的开源热潮。记者观察到,此次开源活动与以往的推理模型开源有所不同,多模态领域的竞争尤为激烈,国产大模型更是展现出超越Sora的实力。
25日晚10点,阿里云宣布其视觉生成基座模型万相2.1正式开源。该模型采用最宽松的开源协议,提供14B和1.3B两种参数规格,并且能够处理文字生成视频和图片生成视频的任务。在性能方面,14B版本的万相2.1表现优异,在权威评测集Vbench中取得了86.22%的总分,超越了包括OpenAI Sora在内的多个国内外模型。尤为引人注目的是,1.3B版本可以在消费级显卡上运行,只需8.2GB显存即可生成480P视频,非常适合家庭和教学场景。
阿里云实现全模态、全尺寸大模型开源
随着万相2.1的开源,阿里云实现了全模态、全尺寸大模型的全面开源。目前,通义大模型的衍生模型数量已经超过10万个,成为全球最大的开源模型库。这一成就标志着阿里云在多模态领域的领先地位。
微软开源多模态智能体Magma
仅仅几个小时后,微软也在26日凌晨3点宣布开源多模态智能体Magma。Magma具备跨数字和物理世界的多模态能力,能够自动处理图像、视频、文本等多种类型的数据,并推测视频中人物或物体的意图和未来行为。官方演示显示,Magma可以与具身智能产生良好的协同效应,例如,用户可以让Magma指挥机器人“拿起桌子上的红色苹果并放入篮子中”。Magma通过视觉编码器识别红色苹果和篮子的位置,结合语言模型理解任务描述,最终指导机器人完成动作。
多模态大模型开源趋势明显
自春节以来,多模态大模型的开源趋势逐渐显现。不久前,上海的大模型初创企业阶跃星辰宣布开源视频生成模型阶跃Step-Video-T2V和语音交互大模型阶跃Step-Audio。据记者了解,开源一周以来,Step-Video-T2V吸引了海内外创作者生成视频超过13.6万次,并已接入全球领先的AI内容创作平台LiblibAI。这表明,多模态大模型在实际应用中的潜力巨大,正逐步改变人们的生活和工作方式。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...