标签:GPU优化
韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出
MoBA(Mixture of Block Attention)是一种将混合专家原理应用于注意力机制的创新方法,通过让模型自主决定关注哪些位置,显著降低了长上下文处理的计算成本...
打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点
3D Gaussian Splatting (3DGS)是一种基于各向异性3D高斯体构建场景表示的新视角合成技术,能够通过带位姿的图像训练快速渲染未见视角,在渲染速度和图像质量...
CUDA内核之神、全球最强GPU程序员?OpenAI的这位幕后大神是谁
在AI领域,聚光灯往往聚焦于明星人物,但幕后工程师的关键贡献同样不可忽视。OpenAI资深工程师Scott Gray因其卓越的GPU编程能力成为近期焦点。他编写的CUDA K...
DeepSeek-R1自写CUDA内核跑分屠榜!斯坦福学霸狂飙GPU编程自动化挑战人类
斯坦福和普林斯顿研究团队开发的KernelBench框架揭示了大型语言模型在生成优化CUDA内核方面的潜力与局限。DeepSeek-R1在自动生成GPU内核任务中超越OpenAI o1...
“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?
英伟达近期面临新的竞争压力,源自DeepSeek-V3技术的最新进展。DeepSeek-V3通过深度优化,硬件效率显著超越Meta等竞争对手,主要得益于其从头开始重建的策略...
7 亿意外之财砸中 150 个打工人?英伟达花重金收购 AI 平台,到手就大方开源了!
英伟达在克服监管阻力后完成了对以色列AI初创公司Run:ai的收购,并计划开源同名AI平台。Run:ai成立于2018年,专注于提供GPU编排软件,其平台通过调度和资源分...
一家中国公司,凭什么敢说自己是真正的“物理世界模拟器”?
在2024年,AI领域出现了一个新趋势,即从基于互联网数据训练的大模型转向与物理世界紧密结合的物理AI。这种转变意味着AI系统需要将物理世界的基本规律和特性...
Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍
FlashAttention-3是针对H100 GPU优化的第三代FlashAttention技术,它在前一代的基础上实现了1.5至2倍的速度提升,将H100 GPU的FLOPs利用率提高到了75%。Flash...





