三句不离 AI：谷歌 2024 I / O 开发者大会一文汇总，Gemini、Veo、Imagen 大模型深夜炸场

观点

2024

05/21

14:30

亚设网

IT之家 5 月 21 日消息，2024 年谷歌 I / O 开发者大会在公司总部附近的海岸线圆形剧场如期召开。此次大会上出现频率最高的词便是 AI，据谷歌 Gemini AI 模型的统计，整个演说中 AI 一词被提到了 121 次，但实际上可能远不止于此。在这场开发者大会上，谷歌推出了多个引人注目的大模型和 AI 新功能。

1、Gemini AI 系列模型

在本次开发者大会上发布了包括 Gemini 1.5 Pro、轻量级 Gemini 1.5 Flash 和 Gemini Nano 在内新版本的 Gemini AI 系列模型。

Gemini 1.5 Pro 是一种以上下文窗口、多模态为机制的推理大模型，目前已经具有突破性的 100 万个 Tokens 长上下文窗口，可以理解最多 1500 页的大型文档，或总结 100 封电子邮件，不久它将能够处理一小时的视频内容或超过 30000 行的代码库。官方宣称今年晚些时候将扩大上下文窗口至 200 万 Tokens，进一步扩展其多模态信息处理能力，可实现对 2 小时视频、22 小时音频、超过 6 万行代码或者 140 多万单词内容进行处理。这一前所未有的超强 AI 模型将会开放给个人用户使用。

Gemini 1.5 Flash 是为满足某些应用程序更低延迟和更低服务成本需求而推出的全新版本。其原理是通过一个名为“蒸馏”（distillation）的过程来实现，即把 Gemini 1.5 Pro 中最基本的知识和技能转移到更小的模型上，并针对模型的速度和效率进行了重点优化。因此 Gemini 1.5 Flash 和 Pro 版本一样具有对大量信息进行多模态推理功能和长上下文窗口。该模型并非真正面向消费者，是开发人员利用谷歌设计技术构建自己的人工智能产品和服务的一种更快、更便宜的方式。

Gemini Nano 是一种可在设备本地运行的离线 AI 模型，谷歌早在去年就为 Pixel 8 和 Pixel 8 Pro 手机推出了轻量级可在本地运行的 Gemini Nano 模型，未来将进一步支持更多 Pixel 和安卓设备。大会上也提到将在 Chrome 126 浏览器中引入 Gemini Nano，实现本地文本生成等功能。此模型不仅具有文字理解能力总结和提取短信、邮件和文件中的信息，还有具有通过视觉和听觉理解信息的能力，并具有反馈功能。

2、影像生成模型 Veo 和 Imagen 3

Veo 模型可以生成各种具有电影感、视觉风格独特、高质量且时常超过一分钟的 1080p 分辨率视频。凭借其对自然语言和视觉语义的深入理解，可以读懂诸如“延时拍摄”或“风景空中拍摄”等相关电影专业术语。

用户可以根据自身需求使用文本、图像或视频提示来引导 Veo 可以创建出一致且连贯的镜头，较好地展现出人物、动物和物体在整个画面中的动态。

谷歌首席执行官德米斯-哈萨比斯（Demis Hassabis）同时表示，视频结果可以通过额外的提示进行完善，谷歌也正在探索更多功能，使 Veo 能够制作故事板和更长的场景。

Imagen 3 模型可以更好理解自然语言、提示背后的意图，并融合较长文字提示中的小细节产生“逼真且栩栩如生的图像”，与之前 Imagen 2 模型相比，分散注意力视觉伪影要少得多。

为了打消人们对 Deepfake 可能性的担忧，谷歌表示，Imagen 3 将使用 DeepMind 开发的 SynthID 方法，在媒体上应用隐形加密水印。

上述两个模型，目前分别仅限特定用户在 videoFX 以及 ImageFX 工具中进行私人预览，但谷歌表示，Imagen 3 模型将很快提供给使用谷歌企业生成式人工智能开发平台 Vertex AI 的开发人员和企业客户。

3、全面拥抱 AI

IT之家从大会获悉，谷歌还提及将发布实时 AI 助手。即从今年夏天开始，Gemini live 将支持语音实时交互，并计划在今年晚些时候推出实时视频交互功能。

谷歌还计划在未来几个月内推出名为 Project Astra 的 AI 助手功能，类似于 GPTs，能够与谷歌生态系统的其他产品进行联动；在 Gemini 推出名为“Gems”的个性化选项，可以让用户定制 Gemini 助手角色，Gems 功能可以让用户迭代的聊天机器人，在保留指定特征的情况下帮助你完成某些任务。

谷歌也将 Gemini 模型融入到了自家的 Calendar、Tasks 和 Keep 等软件产品中，为用户带来更丰富的 AI 功能。在许多 Google App 侧边栏将出现一个切换至 Gemini AI 的按钮，Gemini 助手可以回答问题，完成诸如撰写电子邮件或者文档，并提供长文字或是短讯息内容的概要。

谷歌搜索新增 AI Overviews 搜索体验，前身是 Search Generative Experiences，让用户通过提问、聊天的方式进行 AI 搜索，即为用户在线查询提供人工智能生成答案，在美国地区，谷歌主要通过和 Reddit 社区合作，解答用户提问。本周开始向美国地区开放，后续会推广到更多国家和地区。谷歌周二表示，这是其搜索引擎 25 年来最大更新之一。

AI 防诈骗功能，在设备本地运行 Gemini Nano 模型，在通话中匹配查找欺诈性语言和其他通常与诈骗有关的对话模式，如果遇到疑似诈骗电话，就会发出警报提醒用户，因 Gemini Nano 模型是离线的本地化模型，也不用担心会造成隐私泄露的问题。