大模型

LLM,VLM,模型

「鲶鱼」DeepSeek 正在搅动上下游

DeepSeek的出现引发了AI领域的剧烈震荡,其低成本、高效能的大模型训练和推理方式推动了开源潮流,并给整个行业带来了深远影响。通过引入MoE架构和FP8混合精...

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

许主洪的加入标志着阿里在AI To C业务上的重要布局。作为一名IEEE Fellow和新加坡管理大学终身教授,他凭借深厚的学术积累与产业实践经验,将推动阿里的多模...

满血版DeepSeek-R1,五大平台白嫖攻略!

由于访问量激增和网络攻击,DeepSeek官网及其相关服务近期频繁出现不稳定状况,包括官网、APP和API在内的多项服务均受到不同程度的影响。作为替代方案,各大...

3秒变导演!DeepSeek生成AI视频堪比大片

利用AI生成高质量视频内容正在成为现实,填空式提问法为初学者提供了一种简单有效的入门方式。通过向AI工具如DeepSeek输入基础描述,并借助身份特征、环境氛...

Deepseek R1可能找到了超越人类的办法

本文围绕AI发展历程,从AlphaGo到ChatGPT,再到DeepSeek R1,阐述了AI底层原理的突破及其对AGI/ASI的重要性。1. AlphaGo突破人类上限:1997年深蓝击败国际象...

国产 DeepSeek V3 被秒成”前浪”?谷歌开放最强 Gemini 2.0 全家桶:速度快60倍,上下文还长16倍!

谷歌发布了 Gemini 2.0,这是一套功能强大的人工智能模型,包含多个版本以满足不同需求。Gemini 2.0 Flash 是主打高效性和低延迟的主力模型,具备处理多模态...

创历史!DeepSeek获16大国产AI芯片力挺,中国智算的半壁江山都出动了

DeepSeek作为国产AI大模型,在短时间内获得了广泛的产业支持。首先,16家国产AI芯片企业相继宣布适配或上架DeepSeek模型服务,其中包括华为昇腾、沐曦、天数...

华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」

近期研究围绕类 R1-Zero 的训练展开,聚焦于模型自我反思能力及响应长度变化的机制。研究表明,“顿悟时刻”并非如以往所认为出现在强化学习(RL)训练后,而是...

架构创新×模型创新!清微智能全面适配DeepSeek模型推理和训练

大模型时代的到来使算力成为技术发展的核心驱动力,同时也带来了大规模、高弹性、低成本的算力需求挑战。为了应对这一趋势,清微智能推出了基于可重构计算架...

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

群组相对策略优化(GRPO)作为一种在线学习算法,通过使用训练过程中由模型自身生成的数据进行迭代改进,已因其高效性和易用性成为大型语言模型强化学习中的...
1 6 7 8 9 10 476