Anthropic 发布 Claude 3.7 Sonnet：AI 推理与编程能力的新飞跃

在人工智能领域的激烈竞争中，又一重磅消息震撼登场。2025 年 2 月 24 日，Anthropic 公司正式推出了其最新的 AI 模型 ——Claude 3.7 Sonnet，这款模型凭借独特的设计理念和卓越的性能表现，迅速成为业界关注的焦点。与此同时，Anthropic 还发布了一款全新的命令行工具 Claude Code，为开发者们带来了更加高效便捷的编程体验。接下来，就让我们深入了解一下这

敖行客 Allthinker

1721人浏览 · 2025-02-25 10:03:28

敖行客 Allthinker · 2025-02-25 10:03:28 发布

一、Claude 3.7 Sonnet：混合推理模式的独特魅力

Claude 3.7 Sonnet 堪称 Anthropic 迄今为止最智能的模型，它最大的亮点在于采用了混合推理模式，这在市场上独树一帜。就如同人类的大脑，既能在面对简单问题时迅速给出反应，又能在处理复杂问题时进行深度思考。Claude 3.7 Sonnet 也具备这样的双重能力，它将即时响应与逐步深入思考的能力融合在一个模型之中，为用户带来了前所未有的使用体验。

（一）标准模式与扩展思考模式

Claude 3.7 Sonnet 拥有两种工作模式。在标准模式下，它如同 Claude 3.5 Sonnet 的升级版，能够快速生成回应，满足用户对于一般性问题的解答需求，让用户在短时间内获取信息。而当切换到扩展思考模式时，模型会在回答问题前进行自我反思，对问题进行深入剖析。这种模式在处理数学、物理、指令执行以及编程等复杂任务时，展现出了强大的实力。例如，在解决数学难题时，它不再是简单地给出答案，而是逐步展示推理过程，让用户清晰地看到解题思路。

（二）API 的精细控制

对于 API 用户而言，Claude 3.7 Sonnet 提供了精细的控制选项。用户可以根据实际需求，灵活地设置模型思考的时间预算，即告诉 Claude 思考不超过 N 个 token，N 的取值范围最高可达输出限制的 128K 个 token。这样一来，用户能够根据任务的紧急程度和对答案质量的要求，在速度与成本之间进行合理的权衡。比如，在一些对时间要求较高的场景中，用户可以适当减少模型的思考时间，快速获得一个大致的答案；而在处理关键任务时，则可以给予模型更多的时间进行深度思考，以获取更准确、高质量的回答。

二、Claude 3.7 Sonnet 的卓越性能表现

（一）编程领域的新王者

Claude 3.7 Sonnet 在编程领域的表现尤为突出，堪称编程能力的佼佼者。在多项专业测试中，它都展现出了远超同类模型的实力。例如，在评估 AI 模型解决真实软件问题能力的 SWE-bench Verified 基准测试中，Claude 3.7 Sonnet 取得了令人瞩目的成绩，达到了行业领先水平。在实际应用场景中，Cursor 指出 Claude 3.7 Sonnet 在处理复杂代码库和高级工具使用方面有显著改进，在现实编码任务中再次被评为最佳模型；Cognition 发现它在规划代码变更和处理全栈更新方面远胜其他模型；Vercel 强调了其在复杂代理工作流中的卓越精度；Replit 成功地部署了 Claude 3.7 Sonnet 来从零开始构建复杂的网络应用程序和仪表板，而其他模型在此过程中往往会陷入困境；在 Canva 的评估中，Claude 3.7 Sonnet 始终能够生成具有卓越设计品味的生产就绪代码，并显著减少了错误。

（二）多领域综合能力提升

除了编程领域，Claude 3.7 Sonnet 在其他多个领域也展现出了强大的能力。在 TAU-bench 测试中，该模型在处理复杂真实场景中用户与工具交互的任务时，超越了 Claude 3.5 Sonnet 和 OpenAI 的 o1，达到了 SOTA（state-of-the-art，即当前最优水平）。在指令执行、通用推理、多模态能力以及智能体编码等方面，Claude 3.7 Sonnet 均有出色表现。特别是在扩展思考模式的加持下，其在数学和科学领域的能力得到了显著提升。甚至在 Anthropic 内部的 Pokémon 游戏测试中，Claude 3.7 Sonnet 也凭借更强的决策与规划能力，超越了所有前代模型。

三、Claude Code：开发者的得力编程助手

在发布 Claude 3.7 Sonnet 的同时，Anthropic 还推出了一款名为 Claude Code 的命令行工具，为开发者们带来了全新的编程体验。目前，Claude Code 作为有限的研究预览版提供，它能够让开发者直接从终端将大量的工程任务委托给 Claude，极大地提高了编程效率。

（一）强大的功能集

Claude Code 堪称一个全方位的编程协作伙伴。它具备搜索和读取代码的能力，能够快速理解代码库的结构和逻辑；可以对文件进行编辑，无论是修复代码中的漏洞，还是根据需求添加新功能，都能轻松应对；能够编写并运行测试，确保代码的质量和稳定性；支持将代码提交和推送到 GitHub，实现代码的版本管理；还可以使用命令行工具，进一步拓展了其在不同开发环境中的应用范围。在早期测试中，Claude Code 展现出了惊人的效率，能够一次性完成通常需要 45 分钟以上的人工编程任务，尤其是在测试驱动开发、调试复杂问题和大规模重构等方面，表现得尤为出色。

（二）持续优化与未来展望

Anthropic 表示，在未来的几周内，将持续对 Claude Code 进行优化。重点改进方向包括提升工具调用的稳定性，确保在各种复杂的编程场景下都能可靠地运行；增加对长时间运行命令的支持，满足开发者在处理大型项目时的需求；改进应用内的渲染效果，让开发者能够更直观地查看代码的运行结果和相关信息；进一步增强 Claude 对自身能力的理解，使其能够更好地与开发者进行协作，提供更符合需求的解决方案。通过收集开发者在使用过程中的反馈，Anthropic 希望能够深入了解开发者的需求，为未来模型的改进提供有力的依据。

四、Claude 3.7 Sonnet 的广泛应用与影响

Claude 3.7 Sonnet 现已在多种平台上线，包括所有 Claude 计划（免费、专业、团队和企业版），以及 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI，这使得广大用户能够便捷地体验到这款模型的强大功能。在价格方面，Claude 3.7 Sonnet 与前代 Claude 3.5 Sonnet 保持一致，每百万输入 token 收费 3 美元，每百万输出 token（包括思考 token）收费 15 美元，这样的定价策略也为用户提供了相对稳定的成本预期。

它的出现，不仅为开发者在编程工作中提供了强大的助力，也为其他行业的从业者带来了新的可能性。在科学研究领域，它可以帮助科研人员进行复杂的数据分析和模型构建；在金融领域，能够辅助分析师进行风险评估和投资决策；在教育领域，为教师和学生提供个性化的学习支持和知识解答。可以预见，随着 Claude 3.7 Sonnet 的广泛应用，将在更多领域推动创新，提升工作效率，为各行各业的发展注入新的活力。

Claude 3.7 Sonnet 和 Claude Code 的发布，无疑是 Anthropic 在人工智能领域的一次重大突破。它们不仅展示了 Anthropic 在技术研发方面的实力，也为用户带来了更强大、更智能的工具。在未来，随着这两项技术的不断完善和推广，我们有理由期待它们在人工智能领域掀起更大的波澜，为人类的工作和生活带来更多的便利和惊喜。你是否已经迫不及待地想要体验 Claude 3.7 Sonnet 和 Claude Code 了呢？欢迎在评论区分享你的想法和期待。

科技脉搏，每日跳动。

与敖行客 Allthinker一起，创造属于开发者的多彩世界。

- 智慧链接思想协作 -

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动