2024年的Google I/O开发者大会重点内容
1.Gemini系列大模型介绍
2024年的Google I/O开发者大会于5月15日举行,这是一场聚焦于人工智能的盛会。大会上,谷歌重点介绍了Gemini系列的人工智能模型,特别是Gemini 1.5 Pro和Gemini 1.5 Flash。
Gemini 1.5 Pro:是谷歌目前最强大的模型,它的上下文窗口从100万tokens升级到了200万tokens,这意味着它能处理更多的数据。这个模型能够理解并回答与数千页文本或数小时视频相关的问题。此外,Gemini 1.5 Pro还将在API层面推出新功能,包括视频输入、并行函数调用和文本缓存,以提高处理多个请求和问答文件时的效率。
Gemini 1.5 Flash:是一个更快、更小、更易于部署的模型,它专为开发者设计。它位于Gemini 1.5 Pro和Gemini 1.5 Nano之间,通过一种称为“蒸馏”的过程,将Pro版本中的关键知识和技能转移到一个更小的模型中。这个模型在处理大量数据方面表现出色,特别适用于聊天应用、视频处理和图像字幕。
2.Google Workspace办公套件将整合Gemin
谷歌还宣布了Google Workspace办公套件将整合Gemini,推出基于Gemini 1.5 Pro的多种技能,例如可总结邮件内容。Gmail也将深度整合Gemini,汇总邮件内容并生成更好的回复。
3.谷歌发布Veo视频大模型
除此之外,谷歌还发布了名为Veo的视频生成大模型,该模型能以多种电影和视觉风格生成超过一分钟时长的高质量1080p视频。谷歌还宣布今年晚些时候,能够在本地运行的多模态Gemini Nano模型将登陆Pixel手机,提供文字、图片、视频、音频的理解能力,并具有隐私保护功能。
4.谷歌AI搜索引擎
谷歌还强调了将AI技术更深入地整合到搜索引擎中的计划,包括引入视频搜索功能,允许用户上传视频来展示他们需要解决的问题,然后Gemini技术在互联网各处寻找解决方案。
这次大会突出了谷歌在人工智能领域的重大进展和应用,特别是在多模态AI、搜索和办公工具的整合方面。
这是本次Google I/O 开发者大会,上介绍的新产品:
- Google Project Astra-未来人工助理
- Gemini 1.5 Pro性能提升
- 推出Gemini 1.5 Flash
- 宣布新一代开源模型 Gemma 2
- “ircle to Search”内置到Android 系统
- Android 集成Gemini
- Android 内置大模型 Gemini Nano
- Android 推出 TalkBack,为视觉障碍人士提供便利
- 谷歌视频大模型-Veo
- ImageFX 添加了图像编辑控件和Imagen 3图像生成模型
- 音乐工具:MusicFX
- Workspace 侧面板中可以访问 Gemini 1.5 Pro
- 谷歌推出Translate for me
- LearnLM:针对学习进行微调
- 新的学习工具:Illuminate
- 学习工具:Learn About
1.Google Project Astra-未来人工助理
Google 宣布了一款基于 Gemini 的未来通用人工智能体原型。这款 AI 通过连续编码视频帧和组合视频与语音输入,能够更快速地处理信息,并利用先进的语音模型改善发音和语调。这些 AI 代理能更好地理解上下文并在对话中迅速响应。预计部分功能将在今年晚些时候集成到 Google 的产品中。
2.Gemini 1.5 Pro性能提升
Gemini 1.5 Pro 性能显著提升,具备处理200万token的超长上下文窗口能力。通过数据和算法的改进,增强了代码生成、逻辑推理、规划、多轮对话以及音频和图像理解。现在能够更准确地遵循复杂指令,包括涉及角色、格式和风格的产品级行为。改进了对特定用例的模型响应控制,如设计聊天代理或自动化工作流程。1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、数据提取等,这是通过“distillation”过程实现的,该过程将大型模型的关键知识和技能转移到更小、更高效的模型中。
3.宣布新一代开源模型 Gemma 2
Google 刚刚揭晓了其创新的开源人工智能模型——Gemma 2。作为人工智能领域负责任创新的代表,Gemma 2 引入了一种全新的架构设计,旨在实现前所未有的性能和效率的飞跃。
4.“ircle to Search”内置到系统
Google 将 "Circle to Search" 功能集成到系统中,允许用户通过手势搜索手机内容,无需中断当前活动或切换应用。该功能新增了全屏翻译,并已扩展至更多 Pixel 和 Samsung 设备。对于学生,"Circle to Search" 提供了深入理解物理和数学问题的分步说明,帮助他们完成作业。该工具能够逐步解决包含符号公式、图表和图形的复杂问题。目前,"Circle to Search" 已覆盖超过1亿台设备,并计划于年底前翻倍扩展用户群。
5.Android 集成Gemini
Google 正在改变用户与 Android 设备的互动方式,通过集成人工智能技术。Android 系统中的 Gemini 助手利用生成式 AI 提升用户的创造力和生产力,同时增强对屏幕内容和应用上下文的理解。Google 宣布,用户将能够通过叠加层在应用上方直接调用 Gemini,实现如将图像拖入 Gmail 或 Google Messages,或通过点击查询 YouTube 视频和 PDF 文件的功能。如果拥有 Gemini Advanced,用户可以快速获取信息而无需翻页。这项更新将在未来几个月内推广至数亿设备。
6.Android 内置大模型 Gemini Nano
Android 操作系统即将迈入新纪元,成为首个集成基础模型的移动平台。借助 Gemini Nano,用户将能够迅速接入 AI 的强大功能,同时确保个人隐私得到严格保护。从今年晚些时候开始,随着新一代 Pixel 手机的发布,我们将看到搭载 Gemini Nano 的设备,它们将具备多模态交互能力。这表示设备将不仅限于处理文本信息,还能更全面地理解用户的意图,无论是通过视觉、听觉还是口语交流。
7.Android 推出 TalkBack,为视觉障碍人士提供便利
Google 推出了辅助功能——TalkBack,旨在为视障人士提供更加丰富和清晰的图像内容描述。这项功能将有效补充缺失的视觉信息,无论是家人和朋友分享的照片细节,还是在线购物时衣物的款式与剪裁特点。得益于 Gemini Nano 的本地设备集成,TalkBack 能够迅速生成描述,且在无网络连接的情况下也能正常工作,为用户带来无缝的辅助体验。
8.谷歌视频大模型-Veo
Veo 是一款先进的视频生成工具,能够制作出具有各种电影风格和视觉效果的高质量1080p视频,且视频时长可超过一分钟。该技术凭借其对自然语言和视觉语义的深刻洞察,能够精确地反映用户的创意意图,捕捉到提示的细微情感,并在长篇幅的提示中展现丰富的细节。Veo 提供了前所未有的创意控制能力,它不仅理解电影术语,如“延时摄影”和“航拍景观”,还能创建出连贯且一致的镜头,确保人物、动物和物体在视频中的移动显得自然而逼真。
9.ImageFX 添加了图像编辑控件和Imagen 3图像生成模型
自二月份ImageFX发布以来,它已经成为视觉艺术创作和记忆重建等项目中不可或缺的工具。现在,我们响应社区的强烈需求,引入了全新的编辑控件。这项创新功能使用户能够通过简单的手势操作,对图像中的特定元素进行添加、删除或修改,极大地提升了用户体验。这些激动人心的新特性已经开放,供您立即体验。
同时,ImageFX也将迎来Imagen 3的加入,这是Google DeepMind迄今为止推出的最高品质、最强大的图像生成模型。Imagen 3通过提供更丰富的细节、减少视觉伪影以及更精确的文本渲染,极大地增强了图像的真实感。如果您对这项前沿技术感兴趣,现在就可以加入候选名单,以便在ImageFX中体验Imagen 3的强大功能。
10.谷歌音乐工具:MusicFX
自MusicFX问世以来,Google与包括Jacob Collier在内的多位艺术家携手,不断推动人工智能在音乐创作领域的新边界。在Jacob Collier的专辑《Djesse Vol》发布会上,我们首次展示了DJ模式的魔力。这一创新功能允许用户通过选择不同的音乐流派、乐器等元素来自由混合节奏,赋予音乐故事以生命力。
11. Workspace 侧面板中可以Gemini 1.5 Pro
在Gmail、文档、云端硬盘、幻灯片和表格的侧面板中,Gemini 1.5 Pro 将被投入使用。这一升级版的 Gemini 拥有更长的上下文窗口和更高级的推理能力,使其能够处理更广泛的问题,并提供更深入、更有洞察力的答案。此外,侧面板中展示的摘要和建议提示等信息,也经过了优化,以确保用户能够轻松地进行操作和使用。
12.谷歌推出Translate for me
Google Meet 新增了 "Translate for me" 功能,它能够自动识别对话中的语言,并提供超过60种语言的实时翻译字幕,极大地促进了全球用户的沟通。此外,Google 正在扩展 Gemini for Workspace 功能的多语言支持。在未来几周内,Gmail 和文档的撰写功能将在桌面端新增对西班牙语和葡萄牙语的支持,并且更多语言的支持也正在筹备中。
13.LearnLM:针对学习进行微调
LearnLM 是一款基于教育研究的智能学习工具,致力于提供更具吸引力、个性化且实用的学习体验。Google 与教育界的专业人士和学习专家紧密合作,将先进的学习科学原理整合进我们的 AI 模型及其相关产品中,以促进更有效的学习过程。
14.新的学习工具:Illuminate
Illuminate 是一项创新的实验性项目,旨在将学术研究论文转化为简洁的音频对话形式。仅需几分钟,该技术便能够创建一段由人工智能生成的双声道音频,精准概述论文的核心观点。此外,用户很快将能够提出进一步的问题以深化理解。要体验这项服务,您可以访问 Google Labs,探索现有的音频对话库,并注册以创建您自己的个性化音频摘要。
15.学习工具:Learn About
Learn About 是 Google Labs 下的一项前沿实验体验,它致力于将信息转化为深刻的理解。这项服务通过融合精选的高质量内容、学习科学的洞见以及互动式的聊天体验,使用户能够根据自己的学习节奏,通过图像、视频、网页和互动活动来掌握各种主题。用户还可以上传个人文件或笔记,并在探索过程中提出问题以获得澄清。目前,Learn About 正在招募用户注册成为早期测试员,以体验并反馈这一创新学习工具。
AITOP100平台资讯专区: https://www.aitop100.cn/infomation/index.html
AITOP100平台AI工具集专区: https://www.aitop100.cn/tools/index.html