杨植麟和梁文锋，论文撞车了

179 0 0

文章摘要

在马斯克发布Grok3的同一天，DeepSeek与月之暗面分别发布论文，针对Transformer架构的核心注意力机制提出创新方案。DeepSeek的原生稀疏注意力（NSA）通过语义压缩、动态选择和滑动窗口三项技术，将64k标记序列的处理速度提升至全注意力机制的11.6倍，同时保持或超越原有准确率。计算复杂度从O(n²)降至O(n²/k)，并通过硬件级显存复用技术减少40%内存访问频次。月之暗面的混合块注意力（MoBA）则采用块划分与智能筛选机制，结合FlashAttention和MoE优化，在1M和10M标记测试中分别实现6.5倍和16倍的速度提升。其动态切换设计允许模型在全注意力与稀疏模式间灵活适配，已应用于Kimi产品处理超长上下文需求。

两家公司的技术路径虽均聚焦稀疏注意力，但实现逻辑存在差异。NSA强调工程整合能力，将现有技术组合为可规模化方案；MoBA则保留全注意力兼容性，通过门控网络动态筛选关键块。OpenAI近期论文将DeepSeek R1与Kimi K1.5并列为推理模型代表，印证了两家公司在技术前沿的竞争地位。清华大学教授章明星指出，两者的连续技术“撞车”现象揭示了强化学习与长文本处理方向的共性探索，“注意力机制中的稀疏性可通过端到端训练习得”成为共识。

开源策略成为竞争焦点。DeepSeek通过开源NSA架构推动行业应用，其模式从“防守性开源”转向以技术优势获取市场收益。月之暗面近期传出以“实现SOTA结果”为目标，计划开源最强模型架构，试图通过技术领先性扩大应用影响力。MoBA代码已开放使用，NSA则预示DeepSeek下一代模型的性能突破。随着腾讯等企业借助DeepSeek技术补足生态短板，月之暗面面临产品能力与商业化路径的双重挑战。

技术路线差异映射出两家公司的战略选择：DeepSeek持续强化基础模型能力，通过开源构建生态；月之暗面侧重产品落地与灵活适配，在长上下文场景建立先发优势。未来竞争或将围绕开源模型性能、超长文本处理效率及多模态扩展展开。行业观察者关注两家公司是否会在下一代模型发布中再次出现技术同步，以及开源策略对市场格局的深层影响。