Anthropic发布Claude 3.7 Sonnet:推理能力挑战OpenAI,AI Coding助手同步登场
2025年2月25日,Anthropic重磅发布Claude 3.7 Sonnet及其配套的编程助手Claude Code,标志着AI技术的新高度。Claude 3.7 Sonnet最引人注目的创新是引入了“思考模式”切换功能,允许用户根据任务的复杂程度灵活调整AI的响应速度,从而优化使用体验。
在扩展思维模式下,Claude 3.7 Sonnet在研究生级别的推理测试中取得了78.2%的准确率,不仅直接挑战了OpenAI的最新模型,更超越了DeepSeek-R1,展现了其卓越的推理能力。
更令人惊喜的是,尽管推理功能大幅提升,Anthropic依然维持了原有的定价策略,即每百万输入tokens 3美元,每百万输出tokens 15美元,充分体现了其普惠AI的决心。
Anthropic另辟蹊径:推理、规划与自我纠正的统一之路
Anthropic在介绍Claude 3.7 Sonnet时,强调其核心理念是“将前沿推理变为实用技术”,并指出其开发思路与其他推理模型截然不同。
Anthropic认为,如同人类大脑同时处理快速反应和深度思考,推理能力应该是AI模型固有的集成能力,而非独立模块。这种统一的设计理念旨在为用户提供更流畅的体验。
Anthropic研究产品管理负责人Dianne Penn表示:“推理是AI的核心组成部分,不应作为单独付费的功能。AI应该像人类一样,既能快速响应简单问题,又能深入思考复杂任务。”
“我们认为推理、规划和自我纠正不是孤立的功能,模型本身应该能够识别何时需要更深入的思考,并自动调整,无需用户手动选择推理模式。”
Claude 3.7 Sonnet在技术上通过以下几个方面体现了这一理念:
首先,Claude 3.7 Sonnet既是通用的大型语言模型(LLM),也是推理模型。用户可以选择让模型正常回答,或在回答前进行更长时间的思考。
在标准模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升级版。而在扩展思考模式下,它会进行自我反思,从而显著提高其在数学、物理、指令遵循、编码等领域的表现。
用户在使用API调用Claude 3.7 Sonnet时,还可以控制思考预算,限制其思考时间不超过N个token,N值可高达128Ktoken的输出限制。这意味着用户可以在响应速度(和成本)与回答质量之间进行灵活权衡。
这种设计充分满足了用户对Chatbot响应速度和回答质量的双重需求!
其次,Anthropic在开发推理模型时,并未过度优化数学和计算机科学竞赛问题,而是将重点放在更贴近现实世界的任务上,更好地反映了企业实际使用LLM的场景。
对于企业而言,混合模型提供了一条引人注目的中间路线:能够根据任务微调AI的性能,从即时客户服务响应到复杂的分析。
此前,Deepseek的崛起让许多人认为Anthropic的闭源模式难以为继。但今天,Anthropic用实际行动证明了其独特的价值。
与OpenAI和Deepseek不同,Anthropic追求能够处理常规任务和复杂推理的统一系统,并以强大的技术实力和合理的价格策略支撑这一愿景。
AI Coding领域,Anthropic能否重夺霸主地位?
自2024年6月以来,Sonnet一直是全球开发人员的首选模型。然而,OpenAI o3在编程领域的突破,引发了人们对Anthropic编程地位的担忧。
今天,Anthropic推出了Claude Code,其联合创始人兼首席科学官Jared Kaplan表示,新模型“在编码方面更加强大,尤其是在接管和执行真正复杂的编码任务方面”,旨在夺回AI coding的领导地位!
Anthropic表示,Claude Code将作为一个积极的合作者,搜索和阅读代码、编辑文件、编写和运行测试、提交和推送代码至GitHub,并使用命令行工具,让程序员全程参与。
与其他公司鼓吹AI coding替代程序员不同,Anthropic强调“在每一步都让程序员保持参与,做你最好的助手和伙伴”。
ClaudeAI工具地址:【点击登陆】