阿里开源R1-Omni,多模态情感识别

AIGC动态11小时前发布 AIGCOPEN
65 0 0
阿里开源R1-Omni,多模态情感识别

 

文章摘要


【关 键 词】 情感识别强化学习多模态开源模型优化

阿里巴巴通义实验室的研究人员开源多模态情感识别模型R1-Omni,该模型首次将强化学习与可验证奖励(RLVR)应用于多模态大模型,显著提升了情感识别任务中的推理能力、准确性和泛化能力。R1-Omni在MAFW和DFEW数据集上的表现尤为突出,加权平均召回率(WAR)和无加权平均召回率(UAR)均达到较高水平。与传统强化学习相比,RLVR方法直接利用任务的内在正确性标准设计奖励函数,避免了对复杂中间奖励模型的依赖,从而简化了训练过程并提高了奖励信号的准确性。

在多模态情感识别任务中,R1-Omni通过可验证奖励函数R(q, o)来判断模型生成的情感预测响应o是否与真实情感标签一致。如果预测正确,模型获得奖励值1;如果预测错误,则获得奖励值0。这种机制为模型优化提供了清晰的方向,使其能够有针对性地调整参数,优化多模态信息的处理和融合能力,从而提高情感识别的准确性和可靠性。

在训练过程中,R1-Omni借鉴了DeepSeek-R1的方法,使用了可解释多模态情感推理(EMER)数据集和手动标注的HumanOmni数据集。这些数据集包含了丰富的多模态数据,如视频片段中的人物表情、动作、场景变化,以及音频中的语调、语速、音色等细节。例如,在一个EMER样本中,视频展示了一位女性在室内场景中的焦虑情绪,音频中她的声音带有一丝颤抖,字幕显示“我真的不知道该怎么办了”。这些数据帮助模型理解视觉、音频和文本信息之间的联系,从而推断出人物的情感状态。

HumanOmni数据集包含348个高质量样本,这些样本基于实际场景和研究需求进行人工标注,具有较高的针对性和可靠性。它们与EMER数据集的样本相互补充,为模型的冷启动训练提供了丰富的数据资源。通过这两个数据集的微调,模型逐渐掌握如何从多模态信息中提取关键线索,并整合这些线索以做出准确的情感判断。

根据RAVDESS测试数据显示,R1-Omni模型的WAR达到44.69%,UAR达到43.00%,其泛化能力明显优于其他模型。这一结果表明,R1-Omni在多模态情感识别任务中具有较高的准确性和鲁棒性,为未来相关研究提供了重要的技术支持和参考。

原文和模型


【原文链接】 阅读原文 [ 1207字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...