接力DeepSeek,阶跃星辰直接开源两款国产多模态大模型

文章摘要
【关 键 词】 多模态大模型、开源视频生成、语音交互、技术架构、AGI路线
国内AI创业公司阶跃星辰与吉利汽车集团联合开源Step-Video-T2V视频生成模型和Step-Audio语音交互模型。Step-Video-T2V以300亿参数量成为当前性能最优的开源视频生成模型,支持单次生成204帧540P分辨率视频,并通过深度压缩变分自编码器实现64倍效率提升。该模型在镜头调度、复杂运动生成及人物细节表现上显著突破:可执行推拉摇移等多样化运镜操作,对芭蕾舞、跳水等高难度动作的物理合理性呈现达到新高度,生成人物形象的面部纹理与表情细腻度超越同类模型。
技术架构创新方面,模型采用3D全注意力机制的DiT架构和视频DPO方法优化视觉质量,同时开源包含128项真实场景的评测数据集Step-Video-T2V-Eval。评测显示其指令遵循、运动平滑性等核心指标全面领先行业,尤其在中文语境下的语义理解能力突出。同步开源的Step-Audio语音模型在五大主流测试集表现优异,HSK-6中文水平测试成绩刷新开源模型纪录,支持方言、情绪调节及角色扮演功能,通过合成数据链路突破传统语音合成对人工采集的依赖。
阶跃星辰的技术路线凸显多模态融合特征,其AGI发展路径规划为”单模态-多模态-世界模型”三阶段演进。当前视频模型被定义为Level 1级跨模态翻译系统,未来将向Level 2级预测系统升级,致力于实现视频内容的因果推理与物理规律建模。公司已发布11款涵盖语音、图像、视频的多模态模型,在OpenCompass评测中多次登顶。技术报告披露的视频基础模型分级理论,与学术界关于世界模型的研究方向形成呼应。
开源策略上,两款模型均采用MIT许可协议,允许商业应用与二次开发。Step系列模型在GitHub、Hugging Face等平台同步开放,配套技术文档详细阐释了视频VAE压缩、流匹配训练等核心技术细节。行业观察显示,阶跃星辰通过持续迭代基础模型保持竞争力,其快速的产品研发节奏和全模态技术布局,正在重塑开源多模态领域的竞争格局。
原文和模型
【原文链接】 阅读原文 [ 3003字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★☆