模型训练 | 学习AIGC

拒绝融资、拒绝PR、拒绝扩张：一个研究者如何做出10亿美元的AI公司

Surge AI是一家在人工智能领域具有独特发展路径的公司，尽管其知名度不及OpenAI、Google DeepMind等巨头，但其在行业中的影响力不容忽视。这家公司以不到100...

AIGC动态

1天前

韩松等提出FlashMoBA，比MoBA快7.4倍，序列扩到512K也不会溢出

MoBA（Mixture of Block Attention）是一种将混合专家原理应用于注意力机制的创新方法，通过让模型自主决定关注哪些位置，显著降低了长上下文处理的计算成本...

AIGC动态

4周前

扩散语言模型新发现：其计算潜力正在被浪费？

掩码扩散语言模型（MDLM）作为一种新兴的生成范式，挑战了传统自回归模型从左到右的token生成方式。这种模型通过训练时随机遮蔽序列位置并学习填充，具备多to...

AIGC动态

1个月前

刷新SOTA高出19.05分！英伟达开源OmniVinci全模态理解模型，只用1/6的数据，实现全方位超越

英伟达研究团队推出的OmniVinci全模态理解大语言模型，通过创新的架构设计和数据策略，仅用六分之一训练数据便在关键基准测试中超越现有顶尖模型19.05分。该...

AIGC动态

2个月前

超越谷歌Banana，字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2

香港中文大学、香港科技大学、香港大学与字节跳动联合研发的DreamOmni2系统，标志着AI图像编辑与生成领域的重要突破。该系统通过创新的三阶段数据生成流程和...

AIGC动态

2个月前

高效大规模创新3D重建模型iLRM

AIGC领域聚焦大语言模型发展与应用落地，而在3D建模方面，基于前馈网络的方法受关注，但多数基于Transformer架构的模型处理多视图输入时存在可扩展性问题，计...

AIGC动态

3个月前

全球百万网友迷上赛博「养鱼」，我也被这群AI小丑鱼拿捏了

Draw A Fish 是一款让全球百万网友疯狂上头的 AI 小游戏。其玩法简单，打开网站利用绘图工具，选择颜色和笔刷粗细，在画布上绘制面朝右侧的小鱼，AI 会实时判...

AIGC动态

4个月前

三个月、零基础手搓一块TPU，能推理能训练，还是开源的

大模型技术发展使 AI 专用芯片受关注，谷歌 TPU 是典型例子，其自 2015 年部署后已发展到第 7 代，推动了大模型技术进展。加拿大西安大略大学工程师 Surya Su...

AIGC动态

4个月前

训练效率提升25%、成本降23%！上海期智研究院、算秩未来联合推出MegatronApp：专为万亿参数大模型训练打造的系统工具包

上海期智研究院与算秩未来在WAIC 2025世界人工智能大会上联合发布了开源项目MegatronApp，这是国内首个针对Megatron-LM框架的增强工具链。该工具链聚焦高可用...

AIGC动态

5个月前

最新 AGI 暴论：强化学习的「GPT-3 时刻」实现，还需要 1 万年？

强化学习（RL）领域正在经历一场潜在的变革，类似于语言模型在GPT-3出现时的飞跃。当前的RL模型虽然在特定任务上表现优异，但面临泛化能力差、难以适应新任务...

AIGC动态

5个月前

标签：模型训练

拒绝融资、拒绝PR、拒绝扩张：一个研究者如何做出10亿美元的AI公司

韩松等提出FlashMoBA，比MoBA快7.4倍，序列扩到512K也不会溢出

扩散语言模型新发现：其计算潜力正在被浪费？

刷新SOTA高出19.05分！英伟达开源OmniVinci全模态理解模型，只用1/6的数据，实现全方位超越

超越谷歌Banana，字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2

高效大规模创新3D重建模型iLRM

全球百万网友迷上赛博「养鱼」，我也被这群AI小丑鱼拿捏了

三个月、零基础手搓一块TPU，能推理能训练，还是开源的

训练效率提升25%、成本降23%！上海期智研究院、算秩未来联合推出MegatronApp：专为万亿参数大模型训练打造的系统工具包

最新 AGI 暴论：强化学习的「GPT-3 时刻」实现，还需要 1 万年？

热门网址

标签：模型训练

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址