标签:模型训练
拒绝融资、拒绝PR、拒绝扩张:一个研究者如何做出10亿美元的AI公司
Surge AI是一家在人工智能领域具有独特发展路径的公司,尽管其知名度不及OpenAI、Google DeepMind等巨头,但其在行业中的影响力不容忽视。这家公司以不到100...
韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出
MoBA(Mixture of Block Attention)是一种将混合专家原理应用于注意力机制的创新方法,通过让模型自主决定关注哪些位置,显著降低了长上下文处理的计算成本...
扩散语言模型新发现:其计算潜力正在被浪费?
掩码扩散语言模型(MDLM)作为一种新兴的生成范式,挑战了传统自回归模型从左到右的token生成方式。这种模型通过训练时随机遮蔽序列位置并学习填充,具备多to...
刷新SOTA高出19.05分!英伟达开源OmniVinci全模态理解模型,只用1/6的数据,实现全方位超越
英伟达研究团队推出的OmniVinci全模态理解大语言模型,通过创新的架构设计和数据策略,仅用六分之一训练数据便在关键基准测试中超越现有顶尖模型19.05分。该...
超越谷歌Banana,字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2
香港中文大学、香港科技大学、香港大学与字节跳动联合研发的DreamOmni2系统,标志着AI图像编辑与生成领域的重要突破。该系统通过创新的三阶段数据生成流程和...
高效大规模创新3D重建模型iLRM
AIGC领域聚焦大语言模型发展与应用落地,而在3D建模方面,基于前馈网络的方法受关注,但多数基于Transformer架构的模型处理多视图输入时存在可扩展性问题,计...
全球百万网友迷上赛博「养鱼」,我也被这群AI小丑鱼拿捏了
Draw A Fish 是一款让全球百万网友疯狂上头的 AI 小游戏。其玩法简单,打开网站利用绘图工具,选择颜色和笔刷粗细,在画布上绘制面朝右侧的小鱼,AI 会实时判...
三个月、零基础手搓一块TPU,能推理能训练,还是开源的
大模型技术发展使 AI 专用芯片受关注,谷歌 TPU 是典型例子,其自 2015 年部署后已发展到第 7 代,推动了大模型技术进展。加拿大西安大略大学工程师 Surya Su...
训练效率提升25%、成本降23%!上海期智研究院、算秩未来联合推出MegatronApp:专为万亿参数大模型训练打造的系统工具包
上海期智研究院与算秩未来在WAIC 2025世界人工智能大会上联合发布了开源项目MegatronApp,这是国内首个针对Megatron-LM框架的增强工具链。该工具链聚焦高可用...
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
强化学习(RL)领域正在经历一场潜在的变革,类似于语言模型在GPT-3出现时的飞跃。当前的RL模型虽然在特定任务上表现优异,但面临泛化能力差、难以适应新任务...





