全球科技巨头谷歌正在开发一个名为"Project Jarvis"的创新项目,旨在通过人工智能技术实现网页任务的自动化。预计今年年底,我们将迎来这个由未来版Gemini 2.0驱动的AI工具,它将为用户在Chrome浏览器上的日常网页操作带来革命性的改变 。
Project Jarvis的核心功能
- 自动化网页任务: Jarvis项目将能够自动化执行包括收集研究资料、在线购物、预订航班等在内的复杂任务。通过截取屏幕截图、解析内容,然后自动点击按钮或输入文本,Jarvis项目将极大地简化用户在网页上的操作 。
- 基于Gemini 2.0驱动: 谷歌的Jarvis项目将由即将推出的Gemini 2.0驱动,这是一款专为Chrome浏览器优化的大型动作模型(LAM)。它将利用谷歌在AI领域的最新研究成果,提供更加精准和高效的网页任务自动化服务 。
- 屏幕解析能力: 与微软的OmniParser工具类似,Jarvis项目也将具备强大的屏幕解析能力,将截图转化为结构化数据,帮助AI精准理解用户的意图和需求 。
行业动态
在AI自动化网页任务的领域,谷歌并非孤军奋战。微软、苹果、Anthropic等公司也在积极开发类似的AI工具。例如,微软的Copilot Vision可以与用户讨论正在浏览的网页,并提供实时帮助;苹果的Apple Intelligence预计将在未来一年内具备跨多个应用程序的屏幕识别功能;而Anthropic刚刚推出的Claude测试版已经在计算机上执行操作 。
随着"Project Jarvis"的即将亮相,谷歌再次证明了其在AI技术应用领域的领先地位。这一项目不仅将为用户带来更加便捷的网页操作体验,也将推动整个行业在AI自动化任务执行方面的进步。我们期待在年底看到Jarvis项目的实际应用,并探索它在未来可能带来的更多创新和便利 。
想了解更多AI行业资讯信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html