Towards Speaker-Unknown Emotion Recognition in Conversation Via Progressive Contrastive Deep Supervision
- 点击次数:
- 发表刊物:IEEE Transactions on Affective Computing
- 摘要:对话中的情感识别在实际对话应用中感知用户情感方面受到越来越多的关注。由不同说话者交替说出的对话语句促使大多数研究基于金色说话者标签来利用说话者信息。在这项工作中,我们挑战了现有的利用可用说话人标签的模式,采用了一种更现实的场景,即在推理过程中,每个语句的说话人身份都是未知的。我们提出了用于对话中多模态情感识别的渐进式对比深度监督(PCDS),将说话人日记化和情感识别整合到一个统一的框架中。为了促进联合任务学习,我们通过对比深度监督将说话者和情感偏差逐步注入网络,而任务无关的对比是中间过渡。为了获得明确的扬声器依赖性,我们提出了扬声器对比和聚类模块(SCC),即使在扬声器标签和扬声器数量都不是先验已知的情况下,也能将扬声器划分为若干组。在两个 ERC 基准(包括 IEMOCAP 和 MELD)上进行的实验证明了所提方法的有效性。我们还表明,渐进式对比深度监督有助于调和说话人日记化与情感识别之间的潜在矛盾。源代码可从 Github 上获取[https://github.com/Cross-Innovation-Lab/PCDS/]。
- 备注:Citation: S. Shen, F. Liu, H. Wang and A. Zhou, "Towards Speaker-Unknown Emotion Recognition in Conversation Via Progressive Contrastive Deep Supervision," in IEEE Transactions on Affective Computing, doi: 10.1109/TAFFC.2025.3558222.
- 学科门类:工学
- 一级学科:计算机科学与技术(可授工学、理学学位)
- 文献类型:J
- 是否译文:否
- 发表时间:2025-04-04
- 收录刊物:SCI
- 论文类型:期刊论文
- 发表时间:2025-04-04
推荐