谷歌发布最强AI大模型Gemini：多模态能力全面超越GPT-4？

AI资讯2个月前发布 TextTitan

2.5K 0

12月6日，谷歌正式推出了备受期待的大型语言模型Gemini，这款模型早在6月份的I/O开发者大会上就曾预告，如今终于揭开神秘面纱。谷歌强调，Gemini代表了AI领域的巨大进步，预计将对其所有产品产生深远影响。

尽管谷歌没有明确表示，但作为AI领域的先驱，Gemini一经发布就被视为对OpenAI的回应，甚至被誉为“击败GPT-4”的利器。那么，Gemini究竟有何特别之处？它是否能再现甚至超越ChatGPT带来的AI热潮？

Gemini的三大版本

Gemini共发布了三个版本：Gemini Nano 是轻量级版本，专为移动端设备设计，支持本地和离线运行；Gemini Pro 则是一个可扩展性强的模型，将为谷歌的多项AI服务提供动力，并已集成到AI聊天机器人Bard中；而Gemini Ultra 是谷歌迄今最强大的大语言模型，适用于高度复杂的任务，预计未来将应用于数据中心和企业应用。

目前，用户可以直接体验的是Gemini Pro，其性能对标GPT-3.5，而更强大的Gemini Ultra则计划于明年推出。

Gemini Ultra的性能表现

谷歌声称，Gemini Ultra在32个数学基准测试中的30个取得了最佳成绩，尤其在MMLU（大规模多任务语言理解）方面，得分高达90%，甚至超过了人类专家的89.8%。谷歌提供的基准测试图表显示，Gemini Ultra在数学、物理、历史、法律、医学和伦理学等多个领域均优于GPT-4。

然而，谷歌在基准测试中的方法引起了争议。有专业人士指出，Gemini Ultra在MMLU任务上使用了思维链提示技巧并进行了多次尝试以选出最优结果，而GPT-4则是在无提示词的情况下完成测试。若采用相同的测试标准，Gemini Ultra的表现可能不如GPT-4。

多模态能力：Gemini的亮点

Gemini的一大亮点是其多模态能力，即能够处理文本、代码、音频、图像和视频等多种类型的信息。例如，科研人员可以利用Gemini快速从海量文献中提取关键数据并生成图表；Gemini还可以帮助用户判断手写物理题的正确性，甚至通过图片识别电影名称。

谷歌表示，Gemini的多模态推理功能能够理解和处理复杂的书面及视觉信息，这使得它在科研、金融等领域具有广泛的应用前景。此外，Gemini在解释数学和物理等复杂学科的推理方面表现出色。

核心技术：原生多模态

Gemini的核心技术是原生多模态（natively multimodal），即从一开始就对不同模态的数据进行预训练，再用额外的多模态数据进行微调。这种方法相比常见的为不同模态单独训练组件后再拼接的方式，性能更为优越，尤其在处理复杂抽象场景时表现出色。

尽管Gemini在演示中展现了令人印象深刻的效果，但也有一些质疑声音。例如，机器学习讲师Santiago Valdarrama指出，谷歌的宣传视频可能展示了经过筛选和编辑的最佳结果，而非实时录制的真实表现。此外，有用户实测发现，Gemini在某些任务上的表现略逊于GPT-4。

市场反应与未来展望

Gemini的发布引发了市场的广泛关注，但谷歌股价却下跌了0.74%，反映出市场对新产品前景的疑虑。然而，无论如何，Gemini的推出表明，OpenAI及其GPT系列不再是AI领域的唯一霸主，谷歌正迎头赶上。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

解析 DeepSeek 开源大模型的开放范围与限制

解析 DeepSeek 开源大模型的开放范围与限制

2个月前

09.4K2.3K

字节Trae深度解析：AI如何重塑编程世界的未来

字节Trae深度解析：AI如何重塑编程世界的未来

2个月前

03.4K3.2K

百度文心一言：从质疑到认可的转变

新百度文心一言：从质疑到认可的转变

5天前

09.3K3.8K

人工智能大模型助力罕见病防治：北京协和医院院长的观点

人工智能大模型助力罕见病防治：北京协和医院院长的观点

2个月前

09.7K2.3K

暂无评论

none

暂无评论...