标签:工程优化

杨植麟和梁文锋,论文撞车了

在马斯克发布Grok3的同一天,DeepSeek与月之暗面分别发布论文,针对Transformer架构的核心注意力机制提出创新方案。DeepSeek的原生稀疏注意力(NSA)通过语义...