昨天深夜,Google 突然发布重磅 AI 杀手锏——Gemini。
多模态 Gemini 可以理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频。
在去年 ChatGPT 发布不到两周后,Google 就已经拉响「红色警报」来应对挑战。可紧急上线的 Bard ,却在首次亮相就出现错误,一夜让 Google 蒸发了 1000 亿美元市值。
在过去的一年里,基于大模型的聊天机器人单月访问量已经超过 20 亿, 其中 ChatGPT 遥遥领先,Google Bard 虽然排在第二,但和几个竞品一起归为「其他」更为合适。
▲ 图片来自:The Information
因此,Gemini 早已被寄予了赶超 ChatGPT 的厚望,无论成败,它就是 Google 过去对 AI 大模型孤注一掷的成果。
Gemini 1.0 共官宣中杯、大杯、超大杯三种不同规格。
中杯:Gemini Nano —— 最高效的设备任务模型
大杯:Gemini Pro —— 适用于广泛的任务扩展的最佳模型
超大杯:Gemini Ultra ——最大且最能胜任高度复杂任务的模型
暂且抛开繁杂的参数信息,先来用几个案例让你全面了解 Gemini 的能力。
当你随手画个鸭子,从曲线到鸭子成型,Gemini 都可以精准识别。给鸭子画条波浪线,它能理解你的言外之意,精准地指出鸭子在水中游泳的场景答案。
同时它还能人性化地模仿鸭子的叫声,即使是用流利的普通话说出鸭子的叫法也不在话下。
闲着无聊,也可以和 Gemini 玩个游戏,你的手指指向哪个区域,Gemini 就能说出那个国家及其代表性的事物。
三仙归洞,猜猜纸球在哪个杯子下面,手速再快,也躲不过 Gemini 的「眼睛」。
拿到纱线却毫无头绪,别急,Gemini 聪明的大脑在看到纱线的那一刻,就已经把成品给你安排上,你只需要「照猫画虎」就好了。
识别图像还只是 Gemini 的基础水准,看到乐器,Gemini 还能生成符合环境氛围的音乐,
逻辑和谜题解决、图像序列分析、魔术技巧解释、记忆和逻辑,这些能力 Gemini 样样都有,样样精通。
Google 也发布了文字演示版本,若你不想看视频,可以访问 https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html 查看。
或许是这个视频过于震撼,部分网友质疑 Google 这个视频存在「造假」的可能性,不过 Gemini 将很快在 Google AI Studio 中向公众开放,届时便能一辩真假。
据 Google 官方显示,从自然图像、音频和视频理解到数学推理,Gemini Ultra 的性能在 32 个广泛使用的大型语言模型(LLM)研究和开发的学术基准测试中,超过了 30 个当前最先进的结果。
从 Google 放出的测试结果来看,在文本、常规推理、数学、代码等领域,Gemini 的表现几乎是全方位碾压了 OpenAI 的 GPT-4。
MMLU(大规模多任务语言理解)是测试 AI 模型知识和解决问题能力的最流行方式之一。Gemini Ultra 在该测试中以 90.0% 的准确率成为首个超越人类专家的模型,作为对比,GPT-4 只有 86.4% 的准确率。
新的 MMMU 基准测试包含了跨不同领域的多模态任务,对多模态大模型的检验程度更高,但超大杯 Gemini Ultra 同样取得了 59.4% 的高分。
Google CEO Sundar Picha 在接受《麻省理工学院技术评论》的采访时表示,Gemini 之所以令人瞩目,其中一个重要原因是它从根本上就是一个多模态模型,就像人一样,它不仅从文本中学习,还能通过视频、音频和代码进行学习。
多模态特性是 Gemini 花时间打磨的原生特性,Gemini 1.0 能同时识别和理解文本、图像、音频等多种信息,理解信息能力更强,在回答与复杂主题相关的问题也能游刃有余。在多模态 SOTA 的测试中,Gemini 图像、视频、音频的多模态测试水准再次遥遥领先。
代码是检验大模型水平的重要指标之一,Gemini 1.0 跨语言工作和推理复杂信息的能力是它的强项,能够理解诸如 Python、Java、C++ 等高质量代码。两年前,Google 推出了 AlphaCode,这是首个在编程比赛中达到竞争水平的 AI 代码生成系统。
现在, AlphaCode 推出了第二代,这是一个由 Gemini 微调的竞争性编码模型,在与原始 AlphaCode 在相同的平台上较量时,AlphaCode-2 在人类竞争对手中的得分为 87%,而此前 AlphaCode 的得分只有 46%。
AlphaCode-2 技术报告地址