中文比R1丝滑、玩宝可梦还贼溜？全球首个混合推理模型Claude 3.7 Sonnet太惊艳，网友直呼“孤独求败”！

578 0 0

文章摘要

Anthropic正式发布Claude 3.7 Sonnet模型，该模型作为市场首个混合推理系统，允许用户通过标准模式和扩展思考模式灵活控制模型的响应速度与思考深度。标准模式提供即时响应，扩展模式则通过自我反思机制显著提升数学、物理、编程等复杂任务的解决能力。API用户可设置最高128K token的思考预算，在响应质量与计算成本之间实现动态平衡。

技术架构方面，模型采用”动作扩展”增强能力，支持迭代式函数调用和环境响应，在计算机操作任务中展现出更持久的执行能力。通过”串行测试时计算”机制，模型在生成最终输出前执行多步推理，其数学问题准确率与思考token数量呈对数增长关系。同步推出的Claude Code命令行工具，使开发者能在终端界面委派工程任务，在SWE-bench编程测试中以70.3%的通过率领先同类模型。

性能评估显示，扩展思考模式使Claude 3.7 Sonnet在研究生级推理任务中达到78.2%准确率，超越DeepSeek-R1并逼近OpenAI最新模型。在《Pokémon Red》游戏测试中，改进后的智能体成功挑战三位道馆馆主，验证了其在持续交互场景中的策略优化能力。OSWorld基准测试表明，随着交互时间延长，该模型在多模态任务中的优势逐渐扩大。

用户反馈凸显其应用价值，开发者称赞该模型在代码审查、技术文档解析和脚本编写方面的高效性，部分用户表示其已深度融入日常工作流。Hacker News讨论中，Claude Code团队确认未采用RAG技术，而是通过智能体搜索机制提升代码处理质量。但服务稳定性问题仍被多次提及，成为主要改进诉求。

行业动态方面，阿里云同日推出QwQ深度思考系统，采用模块化工具调用机制并计划开源模型参数，形成技术对标。该系统集成实时网络检索与多窗口交互界面，支持图像合成、气象数据获取等多样化服务，QwQ-32B轻量化版本专为边缘计算设计。两大厂商的技术迭代，标志着AI领域进入推理能力与工程化应用的新竞争阶段。