马斯克20万块GPU炼出Grok-3，暴击DeepSeek R1数学屠榜！疯狂复仇OpenAI

659 0 0

文章摘要

xAI团队发布了Grok-3系列模型及配套工具，标志着大规模算力与模型能力结合的新里程碑。该模型在20万块GPU集群上完成训练，成为首个突破10万GPU同步训练规模的AI系统，其计算量达到前代Grok-2的10倍。技术演示显示，Grok-3在数学、科学问答和编码领域的多项基准测试中刷新SOTA，尤其在AIME 2024数学测试中取得93分，显著超越GPT-4o、Gemini-2 Pro等主流模型。

Grok-3 Reasoning作为核心创新，首次实现推理过程可视化。通过”Think”模式，用户可观察模型解决复杂问题的思维路径。在太空任务规划案例中，模型成功生成符合开普勒定律的星际航行3D动画代码，其计算结果与SpaceX实际轨道高度吻合。对比测试中，其他顶尖模型生成的代码虽可运行，但存在逻辑缺陷导致任务失败。此外，模型在游戏开发场景中展示了多模态创作能力，通过”Big Brain”模式快速构建出俄罗斯方块与宝石迷阵的混合玩法原型。

团队同步推出首个AI智能体DeepSearch，实现互联网深度信息检索与结构化输出。该工具不仅支持限定搜索范围（如仅使用X平台数据），还能展示完整的推理链条和信源追踪。实测显示，DeepSearch能准确回答星舰发射时间等动态信息，并提供游戏攻略等实用内容，其响应效率较传统搜索引擎有显著提升。

技术架构方面，Grok-3采用创新的”测试时计算”机制，通过动态分配算力资源增强推理能力。模型在LMSYS Arena排行榜以超过1400的Elo评分刷新纪录，成为首个在该榜单所有分类测试中均居首位的AI系统。训练基础设施同样突破常规，位于孟菲斯的数据中心首次实现液冷技术在超大规模集群的应用，并整合特斯拉Megapack储能系统保障1/4吉瓦的稳定供电。

商业化进程显示，Grok-3已面向X平台Premium Plus用户开放，计划在数月内全面开源。配套的语音交互功能将于一周内上线，API接口预计在数周后面世。马斯克透露团队正探索将模型应用于特斯拉汽车制造和火箭发射等实体产业，现场演示中研究者强调，模型已具备自我纠错能力和基于第一性原理的推理机制。行业专家评价指出，Grok-3在复杂策略游戏解析和学术论文理解等场景展现出类人的思维特征，但其能耗控制仍是未来优化重点。