Google I/O 2024：开发者大会精彩速览-AITOP100,AI资讯

2024年的Google I/O开发者大会重点内容

1.Gemini系列大模型介绍

2024年的Google I/O开发者大会于5月15日举行，这是一场聚焦于人工智能的盛会。大会上，谷歌重点介绍了Gemini系列的人工智能模型，特别是Gemini 1.5 Pro和Gemini 1.5 Flash。

Gemini 1.5 Pro：是谷歌目前最强大的模型，它的上下文窗口从100万tokens升级到了200万tokens，这意味着它能处理更多的数据。这个模型能够理解并回答与数千页文本或数小时视频相关的问题。此外，Gemini 1.5 Pro还将在API层面推出新功能，包括视频输入、并行函数调用和文本缓存，以提高处理多个请求和问答文件时的效率。

Gemini 1.5 Flash：是一个更快、更小、更易于部署的模型，它专为开发者设计。它位于Gemini 1.5 Pro和Gemini 1.5 Nano之间，通过一种称为“蒸馏”的过程，将Pro版本中的关键知识和技能转移到一个更小的模型中。这个模型在处理大量数据方面表现出色，特别适用于聊天应用、视频处理和图像字幕。

2.Google Workspace办公套件将整合Gemin

谷歌还宣布了Google Workspace办公套件将整合Gemini，推出基于Gemini 1.5 Pro的多种技能，例如可总结邮件内容。Gmail也将深度整合Gemini，汇总邮件内容并生成更好的回复。

3.谷歌发布Veo视频大模型

除此之外，谷歌还发布了名为Veo的视频生成大模型，该模型能以多种电影和视觉风格生成超过一分钟时长的高质量1080p视频。谷歌还宣布今年晚些时候，能够在本地运行的多模态Gemini Nano模型将登陆Pixel手机，提供文字、图片、视频、音频的理解能力，并具有隐私保护功能。

4.谷歌AI搜索引擎

谷歌还强调了将AI技术更深入地整合到搜索引擎中的计划，包括引入视频搜索功能，允许用户上传视频来展示他们需要解决的问题，然后Gemini技术在互联网各处寻找解决方案。

这次大会突出了谷歌在人工智能领域的重大进展和应用，特别是在多模态AI、搜索和办公工具的整合方面。

这是本次Google I/O 开发者大会，上介绍的新产品：

Google Project Astra-未来人工助理
Gemini 1.5 Pro性能提升
推出Gemini 1.5 Flash
宣布新一代开源模型 Gemma 2
“ircle to Search”内置到Android 系统
Android 集成Gemini
Android 内置大模型 Gemini Nano
Android 推出 TalkBack，为视觉障碍人士提供便利
谷歌视频大模型-Veo
ImageFX 添加了图像编辑控件和Imagen 3图像生成模型
音乐工具：MusicFX
Workspace 侧面板中可以访问 Gemini 1.5 Pro
谷歌推出Translate for me
LearnLM：针对学习进行微调
新的学习工具：Illuminate
学习工具：Learn About

1.Google Project Astra-未来人工助理

Google 宣布了一款基于 Gemini 的未来通用人工智能体原型。这款 AI 通过连续编码视频帧和组合视频与语音输入，能够更快速地处理信息，并利用先进的语音模型改善发音和语调。这些 AI 代理能更好地理解上下文并在对话中迅速响应。预计部分功能将在今年晚些时候集成到 Google 的产品中。

2.Gemini 1.5 Pro性能提升

Gemini 1.5 Pro 性能显著提升，具备处理200万token的超长上下文窗口能力。通过数据和算法的改进，增强了代码生成、逻辑推理、规划、多轮对话以及音频和图像理解。现在能够更准确地遵循复杂指令，包括涉及角色、格式和风格的产品级行为。改进了对特定用例的模型响应控制，如设计聊天代理或自动化工作流程。1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、数据提取等，这是通过“distillation”过程实现的，该过程将大型模型的关键知识和技能转移到更小、更高效的模型中。

3.宣布新一代开源模型 Gemma 2

Google 刚刚揭晓了其创新的开源人工智能模型——Gemma 2。作为人工智能领域负责任创新的代表，Gemma 2 引入了一种全新的架构设计，旨在实现前所未有的性能和效率的飞跃。

4.“ircle to Search”内置到系统

Google 将 "Circle to Search" 功能集成到系统中，允许用户通过手势搜索手机内容，无需中断当前活动或切换应用。该功能新增了全屏翻译，并已扩展至更多 Pixel 和 Samsung 设备。对于学生，"Circle to Search" 提供了深入理解物理和数学问题的分步说明，帮助他们完成作业。该工具能够逐步解决包含符号公式、图表和图形的复杂问题。目前，"Circle to Search" 已覆盖超过1亿台设备，并计划于年底前翻倍扩展用户群。

5.Android 集成Gemini

Google 正在改变用户与 Android 设备的互动方式，通过集成人工智能技术。Android 系统中的 Gemini 助手利用生成式 AI 提升用户的创造力和生产力，同时增强对屏幕内容和应用上下文的理解。Google 宣布，用户将能够通过叠加层在应用上方直接调用 Gemini，实现如将图像拖入 Gmail 或 Google Messages，或通过点击查询 YouTube 视频和 PDF 文件的功能。如果拥有 Gemini Advanced，用户可以快速获取信息而无需翻页。这项更新将在未来几个月内推广至数亿设备。

6.Android 内置大模型 Gemini Nano

Android 操作系统即将迈入新纪元，成为首个集成基础模型的移动平台。借助 Gemini Nano，用户将能够迅速接入 AI 的强大功能，同时确保个人隐私得到严格保护。从今年晚些时候开始，随着新一代 Pixel 手机的发布，我们将看到搭载 Gemini Nano 的设备，它们将具备多模态交互能力。这表示设备将不仅限于处理文本信息，还能更全面地理解用户的意图，无论是通过视觉、听觉还是口语交流。

7.Android 推出 TalkBack，为视觉障碍人士提供便利

Google 推出了辅助功能——TalkBack，旨在为视障人士提供更加丰富和清晰的图像内容描述。这项功能将有效补充缺失的视觉信息，无论是家人和朋友分享的照片细节，还是在线购物时衣物的款式与剪裁特点。得益于 Gemini Nano 的本地设备集成，TalkBack 能够迅速生成描述，且在无网络连接的情况下也能正常工作，为用户带来无缝的辅助体验。

8.谷歌视频大模型-Veo

Veo 是一款先进的视频生成工具，能够制作出具有各种电影风格和视觉效果的高质量1080p视频，且视频时长可超过一分钟。该技术凭借其对自然语言和视觉语义的深刻洞察，能够精确地反映用户的创意意图，捕捉到提示的细微情感，并在长篇幅的提示中展现丰富的细节。Veo 提供了前所未有的创意控制能力，它不仅理解电影术语，如“延时摄影”和“航拍景观”，还能创建出连贯且一致的镜头，确保人物、动物和物体在视频中的移动显得自然而逼真。

9.ImageFX 添加了图像编辑控件和Imagen 3图像生成模型

自二月份ImageFX发布以来，它已经成为视觉艺术创作和记忆重建等项目中不可或缺的工具。现在，我们响应社区的强烈需求，引入了全新的编辑控件。这项创新功能使用户能够通过简单的手势操作，对图像中的特定元素进行添加、删除或修改，极大地提升了用户体验。这些激动人心的新特性已经开放，供您立即体验。

同时，ImageFX也将迎来Imagen 3的加入，这是Google DeepMind迄今为止推出的最高品质、最强大的图像生成模型。Imagen 3通过提供更丰富的细节、减少视觉伪影以及更精确的文本渲染，极大地增强了图像的真实感。如果您对这项前沿技术感兴趣，现在就可以加入候选名单，以便在ImageFX中体验Imagen 3的强大功能。

10.谷歌音乐工具：MusicFX

自MusicFX问世以来，Google与包括Jacob Collier在内的多位艺术家携手，不断推动人工智能在音乐创作领域的新边界。在Jacob Collier的专辑《Djesse Vol》发布会上，我们首次展示了DJ模式的魔力。这一创新功能允许用户通过选择不同的音乐流派、乐器等元素来自由混合节奏，赋予音乐故事以生命力。

11. Workspace 侧面板中可以Gemini 1.5 Pro

在Gmail、文档、云端硬盘、幻灯片和表格的侧面板中，Gemini 1.5 Pro 将被投入使用。这一升级版的 Gemini 拥有更长的上下文窗口和更高级的推理能力，使其能够处理更广泛的问题，并提供更深入、更有洞察力的答案。此外，侧面板中展示的摘要和建议提示等信息，也经过了优化，以确保用户能够轻松地进行操作和使用。

12.谷歌推出Translate for me

Google Meet 新增了 "Translate for me" 功能，它能够自动识别对话中的语言，并提供超过60种语言的实时翻译字幕，极大地促进了全球用户的沟通。此外，Google 正在扩展 Gemini for Workspace 功能的多语言支持。在未来几周内，Gmail 和文档的撰写功能将在桌面端新增对西班牙语和葡萄牙语的支持，并且更多语言的支持也正在筹备中。

13.LearnLM：针对学习进行微调

LearnLM 是一款基于教育研究的智能学习工具，致力于提供更具吸引力、个性化且实用的学习体验。Google 与教育界的专业人士和学习专家紧密合作，将先进的学习科学原理整合进我们的 AI 模型及其相关产品中，以促进更有效的学习过程。

14.新的学习工具：Illuminate

Illuminate 是一项创新的实验性项目，旨在将学术研究论文转化为简洁的音频对话形式。仅需几分钟，该技术便能够创建一段由人工智能生成的双声道音频，精准概述论文的核心观点。此外，用户很快将能够提出进一步的问题以深化理解。要体验这项服务，您可以访问 Google Labs，探索现有的音频对话库，并注册以创建您自己的个性化音频摘要。

15.学习工具：Learn About

Learn About 是 Google Labs 下的一项前沿实验体验，它致力于将信息转化为深刻的理解。这项服务通过融合精选的高质量内容、学习科学的洞见以及互动式的聊天体验，使用户能够根据自己的学习节奏，通过图像、视频、网页和互动活动来掌握各种主题。用户还可以上传个人文件或笔记，并在探索过程中提出问题以获得澄清。目前，Learn About 正在招募用户注册成为早期测试员，以体验并反馈这一创新学习工具。

AITOP100平台资讯专区： https://www.aitop100.cn/infomation/index.html

AITOP100平台AI工具集专区： https://www.aitop100.cn/tools/index.html