标签：推理加速

DeepSeek上线国家超算平台！671B满血版，三大运营商接入，玄铁芯片适配

近期，DeepSeek技术生态呈现多维度扩展态势。国家超算互联网平台正式上线支持DeepSeek-R1模型，最高可运行671B参数的满血版本，标志着其算力基础设施的深度整...

AIGC动态

2天前

如何通过KV稀疏实现对vLLM的1.5倍加速

在过去一年中，KV稀疏算法的研究取得了显著进展，但在实际应用中，如何将这些算法与现有的大型语言模型（LLM）框架如vLLM相融合，以提高推理性能，仍是一个挑...

AIGC动态

4个月前

Kimi 背后的长文本大模型推理实践：以 KVCache 为中心的分离式推理架构

在AICon全球人工智能开发与应用大会上，月之暗面高级研发工程师唐飞虎分享了Kimi智能助手背后的推理加速方案，以及该方案在设计时所需要考虑的指标和在真实生...

AIGC动态

5个月前

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

这篇文章介绍了初创公司Groq在大模型生成速度上的突破。Groq由谷歌TPU团队的原班人马创立，推出了基于自研芯片的推理加速方案，其速度比传统云平台快18倍，成...

AIGC动态

12个月前