OpenAI发布AI Agent开发新工具：Responses API、内置工具与Agents SDK-AITOP100,AI资讯

OpenAI发布AI Agent开发利器

近日，OpenAI正式发布了一系列针对AI Agent（智能体）设计的新工具和API，旨在帮助开发者更便捷地创建能够自动执行任务的AI Agent。此举标志着AI应用开发进入了一个新的阶段。

OpenAI认为，过去一年里，高级推理和多模态交互等模型能力为Agent发展奠定了坚实的基础。然而，在实际构建生产级Agent时，开发者仍面临诸多挑战。

为了解决这些难题，OpenAI重磅推出了全新的Responses API、三种内置工具以及一个开源的Agents SDK，为AI Agent的开发和应用提供了强有力的支持。

关键更新速览：

Responses API：融合了Chat Completions API的简洁性与Assistants API的工具使用能力，提供了一个全新的API接口。
Web搜索工具：赋予模型访问互联网的能力，以便获取最新的信息。
文件搜索工具：强化了从大量文档中检索相关信息的功能。
计算机使用工具：由Computer-Using Agent (CUA) 模型驱动，可以自动化计算机操作，使AI能够像人类一样操控电脑界面。
Agents SDK：基于Swarm框架升级，简化了多Agent工作流程的编排。

具体而言，Responses API结合了Chat Completions API（主要用于生成对话回复）的简洁性和Assistants API（允许AI调用外部功能，如查阅资料和执行操作）的工具使用能力，成为构建Agent应用的新基石。

现在，开发者只需一次API调用，即可利用多种工具和多轮模型交互来解决复杂的任务。

在内置工具方面，Web搜索工具支持GPT-4o和GPT-4o-mini模型，能够获取最新的网络信息并提供清晰的引用。在SimpleQA基准测试中，这两款模型的搜索预览版分别获得了90%和88%的卓越准确率。

升级后的文件搜索工具更加强大，支持多种文件格式，并优化了查询、元数据过滤和自定义排序功能，使开发者能够从海量文档中快速找到关键信息。

计算机使用工具由与Operator相同的Computer-Using Agent (CUA)模型提供支持，能够捕获模型生成的鼠标和键盘操作，并在OSWorld、WebArena和WebVoyager基准测试中分别取得了38.1%、58.1%和87%的优异成绩。

OpenAI还推出了开源的Agents SDK，专门用于简化多Agent工作流程的编排。与去年发布的实验性Swarm框架相比，这个全新的SDK有了显著的改进。

Agents SDK提供易于配置的LLM与内置工具集成、Agent间智能交接控制、可配置安全检查以及可视化追踪等功能，适用于客户支持自动化、多步研究、内容生成等多种应用场景。

一些早期测试用户已经利用这些新工具取得了实质性的成果。例如，Hebbia利用Web搜索工具帮助资产管理者和法律从业者从海量数据中提取可行见解；Navan将文件搜索工具应用于AI旅行Agent中，为用户提供精准的旅行政策答案。

Unify和Luminai则使用计算机使用工具自动化复杂的操作流程，特别是在缺乏API的传统系统中；Box利用Agents SDK快速构建和部署了企业数据搜索应用。

在今天凌晨的现场直播中，演示人员通过一个“个人造型师”Agent的应用案例，展示了这些新工具的强大功能。

他们首先使用文件搜索工具查看用户（如“Elon”和“Kevin”）的服装喜好数据，系统轻松整理出这些人的穿衣风格。随后，结合Web搜索工具，系统能够根据用户所在位置（演示中使用“东京”作为Kevin的位置）搜索附近的相关商店，并为Kevin推荐了东京的Patagonia店铺。

接下来，计算机使用工具（Computer Use Tool）自动操作网页界面，为Kevin购买了一件黑色Patagonia夹克，整个过程流畅自然，宛如真人在操控。

最后，演示人员还展示了Agent间的交接功能。Agent将退货请求无缝交接给客服Agent，后者能够调用获取密码和提交退款请求等功能，帮助用户完成Patagonia夹克的退货。

凭借新工具和API的默契配合，这些AI Agent不仅能读懂用户喜好、获取实时资讯、执行复杂操作，还能在不同任务间灵活切换，完美覆盖从推荐到购买再到退货的完整流程。

OpenAI表示，将继续全力支持Chat Completions API，为不需要内置工具的开发者提供新的模型和功能。同时，基于Assistants API测试版的反馈，他们已经将关键改进整合到Responses API中，并计划在功能对齐后，于2026年中期正式停用Assistants API，并提供详细的迁移指南。

新工具定价：

Web搜索：GPT-4o搜索每千次查询30美元，GPT-4o-mini搜索每千次查询25美元。
文件搜索：每千次查询2.5美元，文件存储0.1美元/GB/天（首GB免费）。
计算机使用工具：每输入百万token/3美元，每输出百万token/12美元。

OpenAI表示，随着模型能力变得更加具有Agent属性，他们将继续深化API间的整合，并提供新工具帮助部署、评估和优化生产环境中的Agent。

英伟达CEO黄仁勋曾预言，未来每个公司的IT部门都将转变为AI Agent的“HR部门”。

从管理人员到管理AI，Agent将很快成为劳动力的重要组成部分，提高各行业的生产力。此次发布的工具集是帮助开发者和企业构建、部署和扩展可靠高效AI Agent的重要一步。

此前，开发者需要自行组合不同的API和编写复杂的协调逻辑来构建AI Agent。有了新工具，这一过程将被极大地简化。Responses API将多种功能整合到一个简单接口中，而内置工具为AI提供了“感知”和“行动”的能力，Agents SDK则提供了协调多Agent的标准框架。

通过降低技术门槛，更多企业能够快速构建和部署AI Agent。这或许正是OpenAI所说的“Agnet元年”的真正含义——让AI不再局限于聊天框，而是能融入现实工作流程，成为你的“数字助理”甚至“数字同事”。

AMA问答精选：

Q：哪种操作系统最适合计算机使用？A：CUA模型主要针对网页任务训练，但早期用户发现它在桌面应用程序上的表现也出乎意料地好。
Q：未来会在API中看到o1 pro吗？A：计划很快在responses API中发布。
Q：何时会有Operator在API中可用？A：从今天开始，你可以在API中使用与Operator相同的功能！
Q：如何确保Agent交互中的个人隐私？A：Agents SDK支持开发者定义的安全措施，用于输入/输出验证，还可以使用input_filter来限制传递的消息上下文。

更多AI行业最新资讯新闻信息请关注AI 人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html