谷歌发布最强AI大模型Gemini:多模态能力全面超越GPT-4?

AI头条17小时前发布 TextTitan
1.9K 0

12月6日,谷歌正式推出了备受期待的大型语言模型Gemini,这款模型早在6月份的I/O开发者大会上就曾预告,如今终于揭开神秘面纱。谷歌强调,Gemini代表了AI领域的巨大进步,预计将对其所有产品产生深远影响。

尽管谷歌没有明确表示,但作为AI领域的先驱,Gemini一经发布就被视为对OpenAI的回应,甚至被誉为“击败GPT-4”的利器。那么,Gemini究竟有何特别之处?它是否能再现甚至超越ChatGPT带来的AI热潮?

Gemini的三大版本

Gemini共发布了三个版本:Gemini Nano 是轻量级版本,专为移动端设备设计,支持本地和离线运行;Gemini Pro 则是一个可扩展性强的模型,将为谷歌的多项AI服务提供动力,并已集成到AI聊天机器人Bard中;而Gemini Ultra 是谷歌迄今最强大的大语言模型,适用于高度复杂的任务,预计未来将应用于数据中心和企业应用。

目前,用户可以直接体验的是Gemini Pro,其性能对标GPT-3.5,而更强大的Gemini Ultra则计划于明年推出。

Gemini Ultra的性能表现

谷歌声称,Gemini Ultra在32个数学基准测试中的30个取得了最佳成绩,尤其在MMLU(大规模多任务语言理解)方面,得分高达90%,甚至超过了人类专家的89.8%。谷歌提供的基准测试图表显示,Gemini Ultra在数学、物理、历史、法律、医学和伦理学等多个领域均优于GPT-4。

然而,谷歌在基准测试中的方法引起了争议。有专业人士指出,Gemini Ultra在MMLU任务上使用了思维链提示技巧并进行了多次尝试以选出最优结果,而GPT-4则是在无提示词的情况下完成测试。若采用相同的测试标准,Gemini Ultra的表现可能不如GPT-4。

多模态能力:Gemini的亮点

Gemini的一大亮点是其多模态能力,即能够处理文本、代码、音频、图像和视频等多种类型的信息。例如,科研人员可以利用Gemini快速从海量文献中提取关键数据并生成图表;Gemini还可以帮助用户判断手写物理题的正确性,甚至通过图片识别电影名称。

谷歌表示,Gemini的多模态推理功能能够理解和处理复杂的书面及视觉信息,这使得它在科研、金融等领域具有广泛的应用前景。此外,Gemini在解释数学和物理等复杂学科的推理方面表现出色。

核心技术:原生多模态

Gemini的核心技术是原生多模态(natively multimodal),即从一开始就对不同模态的数据进行预训练,再用额外的多模态数据进行微调。这种方法相比常见的为不同模态单独训练组件后再拼接的方式,性能更为优越,尤其在处理复杂抽象场景时表现出色。

尽管Gemini在演示中展现了令人印象深刻的效果,但也有一些质疑声音。例如,机器学习讲师Santiago Valdarrama指出,谷歌的宣传视频可能展示了经过筛选和编辑的最佳结果,而非实时录制的真实表现。此外,有用户实测发现,Gemini在某些任务上的表现略逊于GPT-4。

市场反应与未来展望

Gemini的发布引发了市场的广泛关注,但谷歌股价却下跌了0.74%,反映出市场对新产品前景的疑虑。然而,无论如何,Gemini的推出表明,OpenAI及其GPT系列不再是AI领域的唯一霸主,谷歌正迎头赶上。

© 版权声明

相关文章