超过DeepSeek、o3,双思维模型Claude 3.7来了

AIGC动态23小时前发布 AIGCOPEN
208 0 0
超过DeepSeek、o3,双思维模型Claude 3.7来了

 

文章摘要


【关 键 词】 双思维扩展思维代码工具推理能力性能提升

著名大模型平台Anthropic推出的Claude 3.7 Sonnet首次引入双思维模式,通过标准与扩展两种思考机制实现差异化响应。标准思考模式适用于即时问答场景,例如直接回答埃菲尔铁塔高度为324米;扩展思维模式则通过展示完整推理链条,显著提升了复杂问题的处理能力。技术实现上,该模式采用强化学习生成结构化推理步骤,形成可观测的”思考过程”文本块,使数学、生物等学科问题的解决准确率获得突破性增长。

测试数据显示,Claude 3.7在SWE Bench代码基准测试中全面超越DeepSeek-R1、OpenAI o1/o3等竞品,MMMLU和Math500测评表现同样处于行业领先地位。其扩展思维模式不仅提升最终答案准确率,更通过增强推理过程的可解释性建立用户信任,开发者可依据透明化的思考路径优化模型表现。安全层面,实时监控推理过程的功能为风险防控提供了新维度,能有效识别并阻断异常输出。

同步发布的Claude Code代码开发工具展现出全流程自动化能力:从代码检索解读、逻辑分析到测试部署,可完整执行开发任务链。典型案例中,该工具能快速定位用户登录功能相关代码,通过解析注释与调用关系辅助理解系统架构。测试驱动开发场景下,Claude Code完成45分钟人工任务仅需单次操作,大幅压缩开发周期,其代码提交、版本控制功能已集成至GitHub工作流。

商业化部署方面,Claude 3.7 Sonnet现已覆盖免费版至企业版全系产品,支持Anthropic API及主流云平台。扩展思维模式在付费版本中开放使用,定价维持输入3美元/百万token、输出15美元/百万token的标准。技术文档显示,思考过程消耗的token计入输出计费体系,这一设计平衡了功能升级与成本控制需求。当前Claude Code仍处预览阶段,但其在复杂调试和大规模重构中的表现已获内部验证,预示代码开发领域将迎来新一轮效率革命。

原文和模型


【原文链接】 阅读原文 [ 1262字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-r1
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...