GPU优化 | 学习AIGC

韩松等提出FlashMoBA，比MoBA快7.4倍，序列扩到512K也不会溢出

MoBA（Mixture of Block Attention）是一种将混合专家原理应用于注意力机制的创新方法，通过让模型自主决定关注哪些位置，显著降低了长上下文处理的计算成本...

AIGC动态

4周前

3D Gaussian Splatting (3DGS)是一种基于各向异性3D高斯体构建场景表示的新视角合成技术，能够通过带位姿的图像训练快速渲染未见视角，在渲染速度和图像质量...

AIGC动态

1个月前

在AI领域，聚光灯往往聚焦于明星人物，但幕后工程师的关键贡献同样不可忽视。OpenAI资深工程师Scott Gray因其卓越的GPU编程能力成为近期焦点。他编写的CUDA K...

AIGC动态

2个月前

斯坦福和普林斯顿研究团队开发的KernelBench框架揭示了大型语言模型在生成优化CUDA内核方面的潜力与局限。DeepSeek-R1在自动生成GPU内核任务中超越OpenAI o1...

AIGC动态

10个月前

英伟达近期面临新的竞争压力，源自DeepSeek-V3技术的最新进展。DeepSeek-V3通过深度优化，硬件效率显著超越Meta等竞争对手，主要得益于其从头开始重建的策略...

AIGC动态

11个月前

英伟达在克服监管阻力后完成了对以色列AI初创公司Run:ai的收购，并计划开源同名AI平台。Run:ai成立于2018年，专注于提供GPU编排软件，其平台通过调度和资源分...

AIGC动态

12个月前

在2024年，AI领域出现了一个新趋势，即从基于互联网数据训练的大模型转向与物理世界紧密结合的物理AI。这种转变意味着AI系统需要将物理世界的基本规律和特性...

AIGC动态

1年前 (2024)

FlashAttention-3是针对H100 GPU优化的第三代FlashAttention技术，它在前一代的基础上实现了1.5至2倍的速度提升，将H100 GPU的FLOPs利用率提高到了75%。Flash...

AIGC动态

1年前 (2024)