标签:大模型
16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling
提升大模型推理性能通常依赖于大量数据和算力,但李飞飞团队提出了一种新方法,仅使用1000个样本进行微调,并引入预算强制技术(budget forcing),在测试时...
DeepSeek点燃国产大模型斗志,RAG等核心技术被重估
东方的AI技术正在崛起,特别是中国的大模型技术在全球范围内引起了广泛关注。DeepSeek-R1作为一匹黑马,不仅在硅谷产生了震撼,还促使微软、亚马逊等云服务厂...
追平多模态满血o1,kimi的新模型k1.5 破解了OpenAI的秘密?
随着年关的临近,大模型行业迎来了新一轮的热潮。DeepSeek和Kimi两大国产大模型相继发布,DeepSeek R1和Kimi k1.5,均对标OpenAI的o1模型。DeepSeek R1以其性...
阶跃星辰再拿多模态榜首,全方位升级发布六款模型
随着春节的临近,2025年初大模型领域迎来了新一轮的竞争高潮。OpenAI的ChatGPT推出了新功能“Tasks”,而国内厂商如月之暗面、MiniMax、生数科技等也纷纷发布了...
大模型商用格局雏形初现:Tokens用量决高下,火山引擎问鼎2024
2024年下半年,国内大模型商用落地的日均Tokens消耗量激增,从1000亿级增长至10000亿规模,月复合增长率达到45%。火山引擎在这一领域表现突出,其商用Tokens...
OpenAI源代码分享!实时AI Agent,20分钟开发语音智能体
OpenAI最近展示了一个基于Realtime API开发的多层级高级AI Agent,该Agent的开发效率极高,仅用20分钟就完成了原型开发,这一速度让许多开发者感到惊讶。该Ag...
确认了!o3-mini几周内发布,奥特曼表示AGI只需872兆瓦计算功率
OpenAI和Anthropic等前沿大模型公司可能已经训练出了下一代大模型,但由于成本过高,短期内不会发布。为了满足用户期待,这些公司可能会不断推出基于下一代大...
大模型隐藏玩家上桌:DeepSeek 向左,面壁向右
在大模型竞赛中,业界玩家分化为三类:追求大参数模型、转向应用端和探索高效模型。算力上限和参数规模的非线性增长导致大模型发展受限,许多玩家转向应用端...
医疗复杂推理开源大模型——华佗GPT-o1
香港中文大学(深圳)和深圳市大数据研究院联合开源了一款专用于医疗领域的复杂大模型——华佗GPT-o1,旨在辅助医生进行更高效的推理。该模型的开发基于高质量...
大模型搜广推,“新瓶装旧酒”还是“范式的革新”?
在AICon全球人工智能开发与应用大会2024北京站的专题圆桌交流中,业界专家深入探讨了大模型技术在应用架构中的创新与实践。专家们认为,大模型技术在需要高度...