标签:开源模型

推理模型新路线开源!与DeepSeek截然不同,抛弃思维链不用人类语言思考

一种名为Huginn的新型开源推理大模型架构通过在连续高维潜空间中直接操作隐藏状态,突破了传统长思维链推理范式的限制。该模型由马克思普朗克研究所和马里兰...

开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

DeepSeek-R1模型的开源引发了全球技术社区对模型复现的热潮,其中Hugging Face主导的Open R1项目成为焦点。该项目通过公开训练代码、评估工具和合成数据集,...

2月15日,探讨DeepSeek开源模型引发的AI最新趋势!蒸馏经验/开源生态/工程能力提升|嘉程创业流水席第249期

DeepSeek开源模型通过技术创新与生态合作,正在重塑AI行业格局。其核心突破源于2024年12月发布的DeepSeek-V3版本,创新性融合FP8运算、MLA注意力机制与MoE架...

清华大学刘知远详解DeepSeek:OpenAI引爆o1藏秘方,但R1造出原子弹也能公开方法|钛媒体AGI

清华大学刘知远副教授在CCF青年论坛直播中深入剖析了DeepSeek R1模型的技术突破与行业影响。该模型通过开源方式完整复现OpenAI o1的深度推理能力,成为全球首...

火遍全球的DeepSeek:科学家是怎么用它的?

中国公司推出的开源人工智能模型DeepSeek-R1因其性价比优势和强大推理能力引发全球科研界关注。这款平价的推理模型在数学与科学问题处理能力上与OpenAI的闭源...

刚刚,我用DeepSeek-R1搭建了一款RAG应用

DeepSeek-R1 是一款开源推理模型,其性能与 OpenAI-o1 相当,但成本仅为后者的不到 10%。利用 DeepSeek-R1,开发了一款名为 Agentic RAG 的应用,该应用具备...

450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了

加州大学伯克利分校天空计算实验室的研究团队NovaSky发布了Sky-T1-32B-Preview,这是一个32B推理模型,其训练成本不到450美元,显示出高级推理能力的复制可以...

最受欢迎开源大模型,为什么是通义?

开源大模型技术的发展正在改变人工智能领域的竞争格局。在过去一年中,通义千问的血缘模型数量迅速增长至5万多个,显示出开源模型在全球范围内的广泛影响力和...

“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了

近日,一款名为Reflection的70B开源大模型因其宣称的卓越性能受到广泛关注,但随后遭遇了一系列造假指控。该模型由小型创业团队开发,声称性能超越了包括Llam...

Llama3.1根本卖不动!业内人士:开源模型成本反而更高

Meta的开源大模型Llama 3在市场上遇冷,特别是在全球最大的云服务提供商亚马逊AWS上,其企业客户更倾向于使用Anthropic的闭源大模型Claude。微软内部人士也透...
1 2 3