接力DeepSeek，阶跃星辰直接开源两款国产多模态大模型

AIGC动态2个月前发布 almosthuman2014

496 0 0

文章摘要

国内AI创业公司阶跃星辰与吉利汽车集团联合开源Step-Video-T2V视频生成模型和Step-Audio语音交互模型。Step-Video-T2V以300亿参数量成为当前性能最优的开源视频生成模型，支持单次生成204帧540P分辨率视频，并通过深度压缩变分自编码器实现64倍效率提升。该模型在镜头调度、复杂运动生成及人物细节表现上显著突破：可执行推拉摇移等多样化运镜操作，对芭蕾舞、跳水等高难度动作的物理合理性呈现达到新高度，生成人物形象的面部纹理与表情细腻度超越同类模型。

技术架构创新方面，模型采用3D全注意力机制的DiT架构和视频DPO方法优化视觉质量，同时开源包含128项真实场景的评测数据集Step-Video-T2V-Eval。评测显示其指令遵循、运动平滑性等核心指标全面领先行业，尤其在中文语境下的语义理解能力突出。同步开源的Step-Audio语音模型在五大主流测试集表现优异，HSK-6中文水平测试成绩刷新开源模型纪录，支持方言、情绪调节及角色扮演功能，通过合成数据链路突破传统语音合成对人工采集的依赖。

阶跃星辰的技术路线凸显多模态融合特征，其AGI发展路径规划为”单模态-多模态-世界模型”三阶段演进。当前视频模型被定义为Level 1级跨模态翻译系统，未来将向Level 2级预测系统升级，致力于实现视频内容的因果推理与物理规律建模。公司已发布11款涵盖语音、图像、视频的多模态模型，在OpenCompass评测中多次登顶。技术报告披露的视频基础模型分级理论，与学术界关于世界模型的研究方向形成呼应。

开源策略上，两款模型均采用MIT许可协议，允许商业应用与二次开发。Step系列模型在GitHub、Hugging Face等平台同步开放，配套技术文档详细阐释了视频VAE压缩、流匹配训练等核心技术细节。行业观察显示，阶跃星辰通过持续迭代基础模型保持竞争力，其快速的产品研发节奏和全模态技术布局，正在重塑开源多模态领域的竞争格局。