超过DeepSeek、o3，双思维模型Claude 3.7来了

530 0 0

文章摘要

著名大模型平台Anthropic推出的Claude 3.7 Sonnet首次引入双思维模式，通过标准与扩展两种思考机制实现差异化响应。标准思考模式适用于即时问答场景，例如直接回答埃菲尔铁塔高度为324米；扩展思维模式则通过展示完整推理链条，显著提升了复杂问题的处理能力。技术实现上，该模式采用强化学习生成结构化推理步骤，形成可观测的”思考过程”文本块，使数学、生物等学科问题的解决准确率获得突破性增长。

测试数据显示，Claude 3.7在SWE Bench代码基准测试中全面超越DeepSeek-R1、OpenAI o1/o3等竞品，MMMLU和Math500测评表现同样处于行业领先地位。其扩展思维模式不仅提升最终答案准确率，更通过增强推理过程的可解释性建立用户信任，开发者可依据透明化的思考路径优化模型表现。安全层面，实时监控推理过程的功能为风险防控提供了新维度，能有效识别并阻断异常输出。

同步发布的Claude Code代码开发工具展现出全流程自动化能力：从代码检索解读、逻辑分析到测试部署，可完整执行开发任务链。典型案例中，该工具能快速定位用户登录功能相关代码，通过解析注释与调用关系辅助理解系统架构。测试驱动开发场景下，Claude Code完成45分钟人工任务仅需单次操作，大幅压缩开发周期，其代码提交、版本控制功能已集成至GitHub工作流。

商业化部署方面，Claude 3.7 Sonnet现已覆盖免费版至企业版全系产品，支持Anthropic API及主流云平台。扩展思维模式在付费版本中开放使用，定价维持输入3美元/百万token、输出15美元/百万token的标准。技术文档显示，思考过程消耗的token计入输出计费体系，这一设计平衡了功能升级与成本控制需求。当前Claude Code仍处预览阶段，但其在复杂调试和大规模重构中的表现已获内部验证，预示代码开发领域将迎来新一轮效率革命。