阿里云万相2.1开源:支持文生视频与图生视频的强大模型
2025年2月26日,阿里云宣布其视频生成大模型万相2.1正式开源,这一消息引起了广泛关注。开源协议为Apache2.0,开发者可以在GitHub、HuggingFace及魔搭社区获取该模型的完整推理代码和权重。此次开源提供了两种不同规模的参数版本:14B和1.3B,不仅支持从文本生成视频,也支持从图像生成视频,为全球开发者带来了新的可能性。
通义万相的发展历程
作为阿里云通义系列的一部分,通义万相是一个用于辅助人类进行图像创作的人工智能模型,于2023年7月7日首次亮相。经过不断迭代优化,通义万相在2024年初推出了视频生成模型2.1版本,并迅速在权威评测榜单VBench上取得领先地位。
开源模型的性能表现
本次开源的万相2.1模型共有两个版本。其中14B参数版本在指令执行、复杂动作生成、物理建模以及文字转视频等方面表现出色,在VBench评测中以86.22%的综合得分领先其他同类产品。而1.3B参数版本则以其高效能著称,即使是在消费级显卡上也能流畅运行,仅需8.2GB显存即可生成480P分辨率的视频,非常适合二次开发和学术研究。
技术亮点与应用场景
万相大模型通过了多项内外部基准测试,证明了其卓越的技术实力。它可以精确地模拟人物的各种复杂动作,例如旋转、跳跃、转身和翻滚等;还可以逼真地再现碰撞、反弹、切割等物理现象。此外,它能够准确解读并响应中文和英文的长文本指令,实现多样化的场景切换和角色互动,极大地拓展了其应用范围。
展望未来
随着万相2.1的开源发布,预计将吸引更多开发者加入到这一领域的探索中来,推动相关技术的进一步发展。无论是对于个人创作者还是企业用户而言,这都将是一个极具价值的工具,助力他们创造出更加丰富多彩的作品。
© 版权声明
文章版权归作者所有,未经允许请勿转载。