OpenAI发布AI Agent开发利器
近日,OpenAI正式发布了一系列针对AI Agent(智能体)设计的新工具和API,旨在帮助开发者更便捷地创建能够自动执行任务的AI Agent。此举标志着AI应用开发进入了一个新的阶段。
OpenAI认为,过去一年里,高级推理和多模态交互等模型能力为Agent发展奠定了坚实的基础。然而,在实际构建生产级Agent时,开发者仍面临诸多挑战。
为了解决这些难题,OpenAI重磅推出了全新的Responses API、三种内置工具以及一个开源的Agents SDK,为AI Agent的开发和应用提供了强有力的支持。
关键更新速览:
- Responses API:融合了Chat Completions API的简洁性与Assistants API的工具使用能力,提供了一个全新的API接口。
- Web搜索工具:赋予模型访问互联网的能力,以便获取最新的信息。
- 文件搜索工具:强化了从大量文档中检索相关信息的功能。
- 计算机使用工具:由Computer-Using Agent (CUA) 模型驱动,可以自动化计算机操作,使AI能够像人类一样操控电脑界面。
- Agents SDK:基于Swarm框架升级,简化了多Agent工作流程的编排。
具体而言,Responses API结合了Chat Completions API(主要用于生成对话回复)的简洁性和Assistants API(允许AI调用外部功能,如查阅资料和执行操作)的工具使用能力,成为构建Agent应用的新基石。
现在,开发者只需一次API调用,即可利用多种工具和多轮模型交互来解决复杂的任务。
在内置工具方面,Web搜索工具支持GPT-4o和GPT-4o-mini模型,能够获取最新的网络信息并提供清晰的引用。在SimpleQA基准测试中,这两款模型的搜索预览版分别获得了90%和88%的卓越准确率。
升级后的文件搜索工具更加强大,支持多种文件格式,并优化了查询、元数据过滤和自定义排序功能,使开发者能够从海量文档中快速找到关键信息。
计算机使用工具由与Operator相同的Computer-Using Agent (CUA)模型提供支持,能够捕获模型生成的鼠标和键盘操作,并在OSWorld、WebArena和WebVoyager基准测试中分别取得了38.1%、58.1%和87%的优异成绩。
OpenAI还推出了开源的Agents SDK,专门用于简化多Agent工作流程的编排。与去年发布的实验性Swarm框架相比,这个全新的SDK有了显著的改进。
Agents SDK提供易于配置的LLM与内置工具集成、Agent间智能交接控制、可配置安全检查以及可视化追踪等功能,适用于客户支持自动化、多步研究、内容生成等多种应用场景。
一些早期测试用户已经利用这些新工具取得了实质性的成果。例如,Hebbia利用Web搜索工具帮助资产管理者和法律从业者从海量数据中提取可行见解;Navan将文件搜索工具应用于AI旅行Agent中,为用户提供精准的旅行政策答案。
Unify和Luminai则使用计算机使用工具自动化复杂的操作流程,特别是在缺乏API的传统系统中;Box利用Agents SDK快速构建和部署了企业数据搜索应用。
在今天凌晨的现场直播中,演示人员通过一个“个人造型师”Agent的应用案例,展示了这些新工具的强大功能。
他们首先使用文件搜索工具查看用户(如“Elon”和“Kevin”)的服装喜好数据,系统轻松整理出这些人的穿衣风格。随后,结合Web搜索工具,系统能够根据用户所在位置(演示中使用“东京”作为Kevin的位置)搜索附近的相关商店,并为Kevin推荐了东京的Patagonia店铺。
接下来,计算机使用工具(Computer Use Tool)自动操作网页界面,为Kevin购买了一件黑色Patagonia夹克,整个过程流畅自然,宛如真人在操控。
最后,演示人员还展示了Agent间的交接功能。Agent将退货请求无缝交接给客服Agent,后者能够调用获取密码和提交退款请求等功能,帮助用户完成Patagonia夹克的退货。
凭借新工具和API的默契配合,这些AI Agent不仅能读懂用户喜好、获取实时资讯、执行复杂操作,还能在不同任务间灵活切换,完美覆盖从推荐到购买再到退货的完整流程。
OpenAI表示,将继续全力支持Chat Completions API,为不需要内置工具的开发者提供新的模型和功能。同时,基于Assistants API测试版的反馈,他们已经将关键改进整合到Responses API中,并计划在功能对齐后,于2026年中期正式停用Assistants API,并提供详细的迁移指南。
新工具定价:
- Web搜索:GPT-4o搜索每千次查询30美元,GPT-4o-mini搜索每千次查询25美元。
- 文件搜索:每千次查询2.5美元,文件存储0.1美元/GB/天(首GB免费)。
- 计算机使用工具:每输入百万token/3美元,每输出百万token/12美元。
OpenAI表示,随着模型能力变得更加具有Agent属性,他们将继续深化API间的整合,并提供新工具帮助部署、评估和优化生产环境中的Agent。
英伟达CEO黄仁勋曾预言,未来每个公司的IT部门都将转变为AI Agent的“HR部门”。
从管理人员到管理AI,Agent将很快成为劳动力的重要组成部分,提高各行业的生产力。此次发布的工具集是帮助开发者和企业构建、部署和扩展可靠高效AI Agent的重要一步。
此前,开发者需要自行组合不同的API和编写复杂的协调逻辑来构建AI Agent。有了新工具,这一过程将被极大地简化。Responses API将多种功能整合到一个简单接口中,而内置工具为AI提供了“感知”和“行动”的能力,Agents SDK则提供了协调多Agent的标准框架。
通过降低技术门槛,更多企业能够快速构建和部署AI Agent。这或许正是OpenAI所说的“Agnet元年”的真正含义——让AI不再局限于聊天框,而是能融入现实工作流程,成为你的“数字助理”甚至“数字同事”。
AMA问答精选:
- Q:哪种操作系统最适合计算机使用?A:CUA模型主要针对网页任务训练,但早期用户发现它在桌面应用程序上的表现也出乎意料地好。
- Q:未来会在API中看到o1 pro吗?A:计划很快在responses API中发布。
- Q:何时会有Operator在API中可用?A:从今天开始,你可以在API中使用与Operator相同的功能!
- Q:如何确保Agent交互中的个人隐私?A:Agents SDK支持开发者定义的安全措施,用于输入/输出验证,还可以使用input_filter来限制传递的消息上下文。
更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html