标签:深度学习

刘知远详解 DeepSeek 出圈背后的逻辑:自身算法的创新以及 OpenAI 的傲慢

在探讨人工智能(AI)如何赋能全人类,实现大模型和通用人工智能的普及时,高效性成为了一个核心议题。智能革命被认为将经历与信息革命相似的阶段,即提高能...

DeepSeek为什么采用与主流大模型不一样的MoE架构?一文搞懂什么是MoE模型

混合专家模型(MoE)通过选择性激活子模型的方式显著提升计算效率,与传统Transformer架构形成鲜明对比。MoE模型每次计算仅激活5.5%的总参数量,而Qwen、LLam...

SemiAnalysis万字解析DeepSeek:训练成本、技术创新点、以及对封闭模型的影响

Semianalysis的分析报告对DeepSeek进行了全面分析,揭示了其在AI领域的多项关键成就和战略布局。报告指出,DeepSeek拥有约5万块Hopper GPU,总投资超过5亿美...

完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!

李锡涵在其AIxiv专栏中分享了如何将DeepSeek R1 671B模型部署到本地环境的详细教程。DeepSeek R1因其出色的性能而广受欢迎,但本地部署可以提供更个性化的服...

模型参数作知识通用载体,MergeNet离真正的异构知识迁移更进一步

浙江大学和上海交通大学的研究团队提出了一种名为MergeNet的知识迁移框架,旨在解决边缘计算设备如智能物联网设备在部署深度神经网络时面临的计算资源和存储...

OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?

2025年,OpenAI推出了Operator,一款能够访问Web并执行任务的智能体,目前仅对美国Pro套餐用户开放,未来将扩展至其他用户群体并集成至ChatGPT。Operator能够...

Keras之父创业押注「程序合成」,副业竟能解锁终极AGI!o3预示新拐点

Keras的创始人François Chollet与Mike Knoop共同创立了AI实验室Ndea,旨在通过深度学习与程序合成的结合来实现人工通用智能(AGI)。他们认为,这种结合是解...

余弦相似度可能没用?对于某些线性模型,相似度甚至不唯一

余弦相似度在机器学习和数据科学领域被广泛用于衡量高维对象之间的语义相似度,尤其在推荐系统和自然语言处理中。然而,Netflix和康奈尔大学的研究指出,余弦...

谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作

谷歌的“Titan”架构作为一种新的深度学习模型,旨在挑战现有的Transformer架构。该架构的核心是一个神经长期记忆模块(LMM),它能够记住长期信息,并有效地扩...

独家丨前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型

胡瀚,前微软亚洲研究院视觉计算组首席研究员,已加入腾讯,接替刘威负责多模态大模型研发。胡瀚清华大学本科及博士学位,师从周杰教授,博士论文获2016年中...
1 2 3 11