【多模态特征融合】A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition

七77. 2024-10-02 11:01:04 阅读 76

标题:在维度情感识别中的音频-视觉融合的联合交叉注意力模型

源文链接:https://openaccess.thecvf.com/content/CVPR2022W/ABAW/papers/Praveen_A_Joint_Cross-Attention_Model_for_Audio-Visual_Fusion_in_Dimensional_Emotion_CVPRW_2022_paper.pdf

icon-default.png?t=N7T8

https://openaccess.thecvf.com/content/CVPR2022W/ABAW/papers/Praveen_A_Joint_Cross-Attention_Model_for_Audio-Visual_Fusion_in_Dimensional_Emotion_CVPRW_2022_paper.pdf

源码链接:GitHub - praveena2j/JointCrossAttentional-AV-Fusion: ABAW3 (CVPRW): A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion RecognitionABAW3 (CVPRW): A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition - praveena2j/JointCrossAttentional-AV-Fusion

icon-default.png?t=N7T8

https://github.com/praveena2j/JointCrossAttentional-AV-Fusion

发表:CVPR-2022

目录

摘要

1.引言

2.相关工作

2.1. 基于A-V融合的情感识别

2.2. A-V融合的注意力模型

3.提出的方法

3.1. 视觉网络

3.2 音频网络

3.3 联合交叉注意力A-V融合

4. 实验方法

4.1 数据集

4.2 实现细节

5. 结果与讨论

5.1 转折点研究

5.2 与最先进方法的比较

6. 结论


摘要

多模态情感识别最近受到了广泛关注,因为它能够利用多种模态(如音频、视觉和生物信号)之间的多样性和互补关系。大多数先进的音频-视觉(A-V)融合方法依赖于循环神经网络或传统的注意力机制,但这些方法没有有效地利用A-V模态之间的互补特性。在这篇论文中,我们专注于基于从视频中提取的面部和声音模态融合的维度情感识别。具体而言,我们提出了一种联合交叉注意力模型,该模型依赖于互补关系来跨A-V模态抽取显著特征,从而实现对效价和唤醒度的连续值准确预测。所提出的融合模型有效地利用了模态间的相互关系,同时减少了特征间的异质性。特别是,它根据联合特征表示与单个模态表示之间的相关性计算交叉注意力权重。通过将联合的A-V特征表示引入到交叉注意力模块中,我们的融合模块性能相比于基础的交叉注意力模块有了显著提升。实验结果表明,我们提出的A-V融合模型在AffWild2数据集上的鲁棒性。在测试集(验证集)上,对于效价和唤醒度分别达到了0.374(0.663)和0.363(0.584)的一致性相关系数(CCC)。这是相对于Affective Behavior Analysis in-the-wild(ABAW3)竞赛中第三挑战基线的一个重大改进,基线的CCC分别为0.180(0.310)和0.170(0.170)。

1.引言

情感识别(ER)是一个充满挑战的问题,因为与人类情感相关的表达在个体和文化间极其多样化。它在神经科学、心理学、认知科学和计算机科学等多个领域得到了广泛研究,推动了一系列应用的发展,例如在医疗保健领域评估愤怒、疲劳、抑郁和疼痛,在机器人学中促进人机交互,在驾驶辅助系统中评估驾驶员的状态等等。情感识别问题可以根据情感的类别模型或维度模型来制定。在类别模型中,人类情感被归类为愤怒、厌恶、恐惧、快乐、悲伤和惊讶。随后,蔑视被添加到了这六种基本情绪之中。这种类别模型由于其简单性和普遍性,在情感计算领域得到了广泛的探索。在维度模型中,广泛范围的人类情感可以在一个连续尺度上进行分析,情感可以投影到效价和唤醒度的维度上。图1展示了使用二维空间来代表情感状态,其中效价和唤醒度作为维度轴。效价反映了从消极(悲伤)到积极(快乐)的愉快程度的宽广范围。相比之下,唤醒度跨越了从被动(困倦)到活跃(高度兴奋)的强度范围。与类别模型相比,情感的维度建模更具挑战性,因为在获取连续尺度的注释方面比离散情感要困难得多。鉴于情感的连续范围,注释往往具有噪声和模糊性。已经推出了多个数据库,如RECOLA、SEWA、SEMAINE等,用于维度情感识别任务。根据视频捕获条件,即受控或自然环境,这一任务可能因光照不良、姿态变化和背景噪音而呈现出不同的挑战。最近,Kollias等人介绍了Affwild2数据集,这是用于维度情感识别任务的最大自然环境数据库。Affwild2还提供了表情分类和动作单元检测任务的注释。此数据集之前已被用于与CVPR 2017、FG 2020和ICCV 2021等会议一起举办的挑战赛。在多任务学习框架下,已提出了几种方法来应对之前的挑战。延续之前的挑战,第三届比赛在CVPR 2022期间举办,特别设有一个针对效价和唤醒度估计的挑战赛道。

本文探讨了在视频中利用音频(A)和视频(V)模态间互补关系的潜力,使用联合交叉注意力框架。面部表情是表达人类情感的最主导渠道之一。有研究表明,只有三分之一的人际交流是通过言语成分传达的,而三分之二的交流是通过非言语成分完成的。声音也是传递人类情感的重要线索,因为它通常与V模态携带互补信息。例如,当面部模态因姿势、模糊、低光照等原因缺失时,我们仍然可以利用A模态来估计情感状态。同样地,当A模态存在静音区域时,我们可以利用V模态中丰富的信息。在大多数现有方法中,A-V融合通常是通过拼接A和V特征来实现的,这可能会降低系统性能。因此,设计一种基于A和V特征的融合机制,能有效利用它们的互补关系,对于提高多模态ER系统在单一模态方法上的准确性和鲁棒性至关重要。

已有多种情感识别方法被提出,用于基于卷积神经网络(CNN)的视频维度情感识别,以获取深度学习(DL)特征,并结合循环神经网络(RNN)捕捉时间动态。DL模型也被广泛应用于声音情感识别,通常使用2D-CNN处理频谱图,或用1D-CNN处理原始波形。在大多数现有的维度情感识别方法中,A-V融合是通过对单独的面部和声音模态提取的深度特征进行拼接,然后输入长短期记忆网络(LSTM)来预测效价和唤醒度。虽然基于LSTM的融合模型可以模拟时空和模态内关系,从而提高系统性能,但它并不能有效捕捉个体模态间的跨模态关系。因此,我们研究了在A和V模态间提取更多贡献特征的益处,以利用它们的互补时间关系。

注意力机制最近在计算机视觉和机器学习社区获得了极大的兴趣,它允许提取任务相关特征,从而提高系统性能。然而,大多数现有的基于注意力的方法在维度情感识别中探索的是模态内关系。尽管一些方法尝试使用基于变换器的交叉注意力捕捉跨模态关系,但它们并没有有效地利用A-V模态的互补关系。事实上,它们的注意力权重计算并未考虑A和V特征间的相关性。最近,Praveen等人提出了一种基于A-V融合的交叉注意力模型,基于A和V模态的互补关系,在RECOLA数据集上显著超越了最先进的方法。本文将模态内和模态间关系的联合建模引入到交叉注意力框架中。在具有挑战性的自然环境Affwild2数据集上,我们展示了将联合表示部署到交叉注意力模块中可以显著改善跨模态关系的建模,同时减少模态间的异质性,超过基础的交叉注意力模型。

本文的主要贡献如下:(1) 提出了一种基于模态内和模态间关系联合建模的A-V融合联合交叉注意力模型,它有效地捕捉了A和V模态间的互补关系以及模态内关系。具体而言,我们使用联合的A-V特征表示,基于从个体特征和联合表示之间的交叉相关性计算出的注意力权重,关注另一个模态(以及自身)。(2) 我们通过在Affwild2数据集上进行一系列广泛的实验和消融研究,分析了所提方法的有效性。

本文的其余部分组织如下。第2节对维度情感识别和用于A-V融合的注意力模型的相关文献进行了批判性分析。第3节描述了所提出的联合交叉注意力A-V融合模型。第4和第5节分别介绍了用于验证和结果获得的实验方法论。

2.相关工作

2.1. 基于A-V融合的情感识别

使用深度学习(DL)模型进行A-V融合的基础方法之一是由Tzirakis等人提出的[18],他们将从ResNet50和1D-CNN分别获得的A和V特征进行拼接,然后输入到长短期记忆模型(LSTM)中。Juan等人[25]对预训练CNN模型的多个层进行微调以适应V模态,并使用传统的A特征进行融合,进行了一项实证研究。Nguyen等人[26]提出了一种双流自动编码器和LSTM的深度学习模型,可同时从A和V模态学习紧凑的代表性特征,用于维度情感识别。Schonevald等人[19]探索了使用教师-学生模型的知识蒸馏技术,用于V模态,以及使用频谱图的CNN模型用于A模态,并将两者与递归神经网络(RNN)结合。Deng等人[27]提出了一种迭代自蒸馏方法,用于在一个多任务框架中建模标签中的不确定性。Kuhnke等人[28]提出了一种双流A-V网络,其中V特征从在动作识别数据集上预训练的R(2+1)D模型中提取,而A特征则由Resnet18模型获得。Wang等人[20]进一步改进了他们的方法[28],在半监督学习框架中引入了教师-学生模型。教师模型在可用的标签上进行训练,然后用于为未标记数据生成伪标签。最后,这些伪标签用于训练学生模型,该模型用于最终预测。

尽管上述方法在维度情感识别方面显示出了显著的改进,但它们未能有效地捕捉跨模态关系和特定于任务的相关显著特征。因此,我们专注于使用注意力机制以互补的方式捕捉全面的特征。

注意力机制允许模型聚焦于输入数据中最相关的部分,这对于在A-V融合中捕捉跨模态的互补信息尤为重要。通过使用注意力机制,模型可以学习到哪些特征对特定任务(如情感识别)最为重要,从而在融合过程中优先考虑这些特征。这种方法有助于克服传统融合方法(如简单拼接)的局限性,后者可能不会考虑到特征间的复杂交互。通过关注A和V模态中最具表现力的部分,注意力机制可以提高模型的效率和效果,尤其是在处理高维和复杂的数据时。

2.2. A-V融合的注意力模型

注意力模型在A-V融合中已被广泛研究,用于建模A-V模态之间的内部和跨模态关系,应用于各种场景,如A-V事件定位[29]、动作定位[30]、情感识别[23]等。Zhang等人[31]提出了一种注意力融合机制,其中V模态的多特征来自3D-CNNs和2D-CNNs,而A模态的特征则通过使用频谱图的2D-CNNs获得。获取到的A和V特征进一步通过基于各自模态相关信息的评分函数重新加权。最近,跨模态注意力被发现很有前景,因为有效建模跨模态关系能显著提升系统性能。Srinivas等人[23]探讨了带有编码层的变换器(transformers),其中部署了跨模态注意力来整合A和V特征,用于维度情感识别。Tzirakis等人[21]研究了基于变换器的自注意力(self-attention)和跨注意力(cross-attention)融合,使不同模态的提取特征能够相互关注。虽然这些方法已经探索了与变换器结合的跨模态注意力,但它们没有利用基于交叉相关性的A-V特征之间的语义相关性。Zhang等人[32]研究了在单个模态之上改善融合性能的可能性,并提出了领导-跟随者注意力融合,用于维度情感识别。所获得的特征被编码,通过组合编码后的A和V特征得到注意力权重。这些权重进一步应用于V特征上,并与原始V特征拼接,用于最终预测。

与先前的方法不同,我们提倡一种简单而高效的联合跨注意力模型,基于A和V模态间内部和跨模态关系的联合建模。跨注意力在多种应用中成功应用,例如弱监督动作定位[30]、少样本分类[33]和维度情感识别[34]。在大多数情况下,跨注意力是在各个模态之间应用的。Praveen等人[24]展示了个别特征上的基于交叉相关性的跨注意力带来了显著的改进。然而,我们探索了个体和组合的A-V特征之间的联合注意力。通过部署联合A-V特征表示,我们可以通过允许模态间以及模态自身之间的交互,同时有效地捕获内部和跨模态的关系。最近,Duan等人[29]也以递归方式探索了联合共同注意力(joint co-attention),用于A-V事件定位,并发现它在获得稳健的多模态特征表示方面很有希望。在本文中,联合(组合)的A-V特征通过跨注意力提取,其中每个模态的特征不仅关注自身,而且通过连接的A-V特征和各单独模态特征的交叉相关性关注另一个模态的特征。所提出的方法通过有效地利用内部和跨模态关系的联合建模,可以显著提升系统性能。

3.提出的方法

3.1. 视觉网络

视频中的面部表情承载着与外观和时间动态相关的重要信息,这对理解一个人的情绪至关重要[35]。因此,为了获得适合情感识别的稳健特征表示,必须有效建模这些空间和时间线索。近年来,深度学习模型在分析视频中的面部表情方面得到了广泛探索。在大多数这些方法中[36, 37],2D-CNN与RNN相结合使用,分别用于捕捉空间和时间动态。3D-CNNs也被广泛研究,尤其在动作识别领域,并被发现在同时捕捉空间和时间动态方面具有优势。受3D-CNNs性能的启发,作者在[38]中探索了在Kinetics-400动作识别数据集上预训练的R(2plus1)D网络[20,28]。在Affwild2数据集上的维度情感识别任务中,它超过了传统的2D-CNNs。最近,膨胀3D-CNNs(I3Ds)[39]在使用较少参数的情况下在动作识别数据上提供了显著改进,同时能够利用多个预训练2D-CNN模型的权重。然而,它无法捕捉长期的时间依赖性。时间卷积网络(TCN)被发现能有效捕捉长期时间依赖性[32]。因此,我们考虑了I3D与TCN的结合,以利用长期和短期时间动态。我们还探索了其他视频主干网络,如在Kinetics-400数据集上预训练的R(2plus1)D网络[20, 28],以及带有GRU的ResNet CNNs来获取视频特征,并验证我们的融合模型(请参阅第4节中的实现细节)。

3.2 音频网络

在情感识别的音频模态中,几种低级描述符,如韵律、激发、梅尔频率倒谱系数(MFCCs)和频谱描述符,通常被用作特征表示[25, 40]。随着深度学习模型的出现,使用1D-CNN在原始音频信号上[18]或使用2D-CNN在频谱图上[19, 20],语音情感识别的性能得到了显著提升。与1D-CNNs相比,使用频谱图的2D-CNNs在语音情感识别文献中被广泛研究,因为它被发现携带了关于一个人情感状态的重要旁语言信息[41]。各种2D-CNN架构,如VGGish[32]和Resnet18[42],已被用于获得情感识别中音频模态的稳健特征表示。鉴于频谱图在提取与一个人情感状态相关的有效特征表示方面的广泛应用,我们在框架中也使用了频谱图与2D-CNNs,以验证所提出的融合模型(请参阅第4节中的实现细节)。

3.3 联合交叉注意力A-V融合

虽然A-V融合可以通过统一的多模态训练实现,但人们发现,多模态网络的同时训练往往会逊色于单独模态的表现[43]。这可以归因于几个因素,比如A和V模态的学习动态差异[43]、不同的噪声拓扑结构,其中某些模态流可能包含的任务相关信息较多或较少,以及专门的输入表示[44]。因此,我们独立地训练了深度学习模型,分别从A和V模态提取特征,然后将这些特征输入到联合交叉注意力模块中进行A-V融合,输出最终的效价和唤醒度预测。

在给定的视频序列中,V模态在某些视频片段中可能携带更多相关的信息,而A模态在其他片段中可能更为相关。由于多种模态为效价和唤醒度提供了不同的信息,它们之间的互补关系需要被有效地捕捉。为了可靠地结合这些模态,我们依赖于基于交叉注意力的融合机制,以高效地编码跨模态信息,同时保持模态内的特征。尽管传统的交叉注意力通常应用于单独模态的特征之间,但我们采用了联合学习框架下的交叉注意力。具体而言,我们的联合A-V特征表示是通过拼接A和V特征,使其关注于单独的A和V特征而获得的。通过使用联合表示,每个模态的特征既能关注自身,也能关注另一个模态,有助于捕捉A和V之间的语义跨模态关系。在交叉注意力模块中使用组合特征表示还可以大幅减少A和V模态之间的异质性,进一步提升系统性能。所提出模型的框图如图2所示。

A) 训练模式:

X_a

X_v

分别表示对给定固定大小视频子序列S响应所提取的音频(A)和视频(V)模态的两组深度特征向量集合,其中

X_a = \{x^a_1, x^a_2, ..., x^a_L\} \in \mathbb{R}^{d_a \times L}

X_v = \{x^v_1, x^v_2, ..., x^v_L\} \in \mathbb{R}^{d_v \times L}

。L 表示从S均匀采样的不重叠固定大小片段的数量,

d_a

d_v

分别代表音频和视频表示的特征维度,

x^a_l

x^v_l

分别表示第 l个片段的音频和视频特征向量,其中 l = 1, 2, ..., L。

如图2所示,通过拼接音频和视频特征向量,获得A-V特征的联合表示 J:

J = [X_a;X_v] \in \mathbb{R}^{d \times L}

,其中

d = d_a + d_v

表示拼接特征的维度。接下来,给定视频子序列(S)的这种A-V特征表示(J)用于关注单模态特征表示

X_a

X_v

音频特征

X_a

与联合A-V特征 J之间的联合相关矩阵

C_a

 (da*d?)由下式给出:

其中

W_{ja} \in \mathbb{R}^{L \times L}

表示音频和联合A-V特征之间的可学习权重矩阵。

类似地,视频特征的联合相关矩阵由下式给出:

对于音频和视频模态的联合相关矩阵

C_a

C_v

提供了一个语义相关性的度量,不仅跨模态,而且在同一模态内部。联合相关矩阵

C_a

C_v

的较高相关系数表明,对应的样本在相同模态以及另一模态内都有很强的相关性。因此,所提出的方法可以有效地利用A和V模态的互补性质(即跨模态关系)和模态内关系,从而提高系统的性能。

在计算了联合相关矩阵之后,估计音频和视频模态的注意力权重。

在这个阶段,注意力权重的计算反映了每个模态特征与联合A-V特征之间的关联程度,从而使得模型能够基于跨模态和模态内信息的互补性,更加关注那些对于情感识别任务至关重要的特征。这一步骤对于融合过程至关重要,因为它确保了模型能够充分利用音频和视频信息的互补优势,以提高最终效价和唤醒度预测的准确性和鲁棒性。

由于联合相关矩阵

\mathbb{R}^{d_a \times d}

与对应模态的特征

\mathbb{R}^{L \times d_a}

的维度不同,我们依赖于针对各单独模态特征的不同可学习权重矩阵来计算模态的注意力权重。对于音频模态,联合相关矩阵

C_a

和相应的音频特征

X_a

使用可学习权重矩阵

W_{ca}

W_a

分别组合来计算音频模态的注意力权重,表达式如下:

其中

W_a \in \mathbb{R}^{k \times L}

,

X_a \in \mathbb{R}^{L \times d_a}

,

W_{ca} \in \mathbb{R}^{k \times d}

,

C_a\in\mathbb{R}^{d_a \times d}

, 且

H_a

(

k*d_a

)代表音频模态的注意力映射。同样,视频模态的注意力映射

H_v

计算如下:

其中

W_{cv} \in \mathbb{R}^{k \times d}

,

W_v \in \mathbb{R}^{k \times L}

最后,这些注意力映射被用来计算音频和视频模态的加权特征。这些特征由以下公式得出:

其中

W_{ha} \in \mathbb{R}^{k \times L}

W_{hv} \in \mathbb{R}^{k \times L}

分别表示可学习的权重矩阵。加权后的音频和视频特征

X_{att, a}

X_{att, v}

进一步拼接以得到A-V特征表示:

最后,A-V特征被送入全连接层以预测效价或唤醒度。

在文献中,一致性相关系数

\rho_c

被广泛用来衡量预测x和真实标注y之间的一致性水平,用于效价-唤醒度情绪识别 [18]。设

\mu_x

\mu_y

分别表示预测值和真实值的均值。类似地,如果

\sigma^2_x

\sigma^2_y

分别表示预测值和真实值的方差,则预测和真实值之间的一致性相关系数

\rho_c

为:

其中

\sigma^2_{xy}

表示预测和真实值之间的协方差。尽管均方误差(MSE)被广泛用作回归模型的损失函数,但我们使用

L = 1 - \rho_c

,因为这是效价-唤醒度情绪识别领域中的标准和常见损失函数 [18]。我们的A-V融合模型的参数

根据这个损失进行优化。

B) 测试模式:连续的视频序列在推理时作为我们的模型输入。对于连续的输入片段和频谱图,音频和视频主干网络分别提取特征表示

x^a_l

x^v_l

并馈送给A-V融合模型以预测效价和唤醒度。此外,唤醒度和效价值的预测可能通过多个不同的音频和视频主干网络产生,这些主干网络可以通过特征级融合结合,或者通过决策级融合结合多个A-V融合模型(具体实现细节见第4节)。在测试模式下,模型处理连续视频流,实时提取特征并作出效价和唤醒度的预测。

4. 实验方法

4.1 数据集

Affwild2是情感计算领域中最庞大的数据库,从YouTube收集,在极其具有挑战性的环境下捕获数据。尽管数据集提供了表情分类、动作单元检测及效价-唤醒度的注释,本工作主要集中在效价-唤醒度的估计问题上。在效价-唤醒度估计挑战的赛道中,共有567个视频,带有效价和唤醒度的注释。其中16个视频片段展示了两个主体,两者都被进行了注释。注释由四位专家使用游戏杆完成,最终注释是四位评价者的平均值。总共有2,786,201帧,涉及455个主体,其中277人为男性,178人为女性。效价和唤醒度的注释在[-1, 1]范围内连续提供。某些视频中的一些帧未被注释,因此我们剔除了这些帧。数据集分为训练、验证和测试集。分割是按主体进行的,确保每个主体的数据只出现在一个子集中。最终,分别有341、71和152个视频用于训练、验证和测试。

4.2 实现细节

视频模态

对于视频模态,我们使用了挑战组织者提供的裁剪和对齐图像。对于视频模态中缺失的帧,我们考虑使用黑色帧(即,像素值为零)。人脸图像被缩放至224x224尺寸,以输入至I3D网络。视频被转换为子序列,均匀采样以获得非重叠的固定长度片段。视频的子序列长度和片段长度分别设置为64和8,通过对256帧序列降采样4倍得到。因此,每个子序列中有八个片段,产生196,265个训练样本,41,740个验证样本和92,941个测试样本。I3D模型在ImageNet数据集上预训练,并使用Affwild2的面部表情视频膨胀为3D-CNN。线性层使用p=0.8的Dropout进行正则化。初始学习率为1e-3,SGD使用0.8的动量。权重衰减为5e-4。网络的批次大小设置为8。在训练数据上执行数据增强,通过随机裁剪产生尺度不变的模型。训练周期数设定为50,使用早停策略以获得最佳模型的权重。

音频模态

对于音频模态,从对应的视频中提取声带信号并重采样至44,100Hz,进一步处理以提取与视频网络32帧片段相对应的短音频段。确保视频片段和音频片段在子序列级别上同步。使用长度为1024的离散傅立叶变换(DFT)为每个短片段(对应32帧)生成频谱图,窗口长度设为20毫秒,跳长度为10毫秒。聚合短时频谱后,得到与视频模态每个子序列对应的64x107频谱图。接下来,频谱图转换为对数功率谱,以分贝(dB)表示。最后,对频谱图进行均值和方差归一化。得到的频谱图输入至Resnet18模型以获取音频特征。由于Affwild2数据集样本数量庞大,我们从头开始训练Resnet18模型。为了适应频谱图通道数,Resnet18模型的第一卷积层被替换为单通道。网络以0.001的初始学习率进行训练,权重使用Adam优化器优化。批次大小为64,同样使用早停策略以获得最佳预测模型。

A-V融合网络

对于A-V融合网络,拼接的A-V特征J的大小设置为1024。在联合交叉注意力模块中,交叉注意力矩阵的初始权重采用Xavier方法初始化,权重使用Adam优化器更新。初始学习率设定为0.001,批次大小固定为64。此外,对加权的A-V特征应用0.5的Dropout,所有实验使用5e-4的权重衰减。最后,特征级(决策级)融合通过训练全连接神经网络实现,为唤醒度和效价值预测提供特征表示(决策值)的加权融合。

这些实现细节描述了如何准备和处理视频和音频数据,以及如何训练和优化深度学习模型,以进行A-V融合并最终实现效价和唤醒度的准确预测。

5. 结果与讨论

5.1 转折点研究

表1展示了我们在验证数据集上的转折点研究结果。该研究比较了所提出的联合交叉注意力融合方法在不同的音频(A)和视觉(V)主干网络以及A-V融合策略下的表现。首先,我们实现了带有简单特征拼接的I3D模型,其中A和V特征被拼接,并馈送到全连接层进行效价值和唤醒度预测。然后,我们将I3D替换为R3D并实施了类似的特征拼接融合策略。发现R3D在唤醒度方面略优于I3D,而I3D在效价值方面表现出更优的性能。我们也对比了我们的方法与其他文献中的相关注意力融合策略。我们比较了I3D与领导者-跟随者注意力[32]和交叉注意力[24]的主干网络。相比基础的交叉注意力模型,领导者-跟随者注意力表现更好。

最终,为了验证所提出的融合模型的泛化能力,我们使用了不同的V主干网络,包括I3D、R3D、带有GRU的Resnet18以及带有TCN的I3D。虽然我们的融合模型的表现会随着不同主干网络的选择略有变化,但我们可以观察到,我们的融合模型可以超越其他注意力策略,特别是在效价值方面。与2D-CNN模型(带有GRU的Resnet18)相比,3D-CNN架构的表现略微更好。此外,当与R3D比较时,I3D与我们的融合模型结合时在效价值上提供了更多的提升。引入TCN与I3D相结合后,所提出的融合模型的表现甚至更好,因为它能比单独的I3D更有效地捕捉长期的时间线索。我们进一步探索了V主干网络的特征级融合,通过训练一个全连接网络来结合I3D-TCN和R3D,这显示了相对于仅使用I3D-TCN的轻微改进。上述所有实验中,Resnet18都被用作A模态的主干网络。

5.2 与最先进方法的比较

表2展示了我们与Affwild2验证集上相关最先进A-V融合模型的比较结果,这些模型是在之前的挑战赛中提交的[10,11]。大多数相关的方法都是使用不同的实验协议和训练策略实现的。因此,为了公平比较,我们根据我们的实验协议重新实现了这些方法,并在Affwild2验证集上分析了结果。与我们的A和V主干网络类似,Kuhnke等人[28]也使用了3D-CNNs,其中R(2plus1)D模型用于V模态,Resnet18用于A模态。然而,他们为V模态使用了额外的掩码,并利用其他任务的注释来细化效价值和唤醒度的注释。他们进一步执行简单的特征拼接,没有专门的融合模型来预测效价值和唤醒度。因此,融合后的性能并未显著超过单一模态的表现。Zhang等人[32]探索了领导者-跟随者注意力模型用于融合,并展示了在融合性能上对单一模态表现的最小改善。尽管他们在唤醒度方面表现出比效价值更为显著的性能,但这主要归功于V主干网络。我们提出的方法在融合上显著提升了效价值的表现,特别是在效价值而非唤醒度上。即使使用基础的交叉注意力融合[24],我们也证明了效价值的融合性能相比于[32]和[28]得到了更好的提升。通过在交叉注意力融合模型中部署联合表示,效价值的融合性能得到了进一步显著提升。在唤醒度的情况下,尽管融合性能低于[32]和[28],但我们观察到它已经超过了单一模态V的表现。因此,所提出的方法有效地捕捉了跨越广泛情绪范围的变化(效价值),而不仅仅是情绪强度(唤醒度)。

我们进一步将我们的融合模型与第三界ABAW挑战赛[16]中测试集上的其他有效提交进行了比较,如表3所示。挑战赛的获胜者[46]也使用了A-V融合,并在效价值和唤醒度方面都展示了出色的表现。他们使用了三个外部数据集来提高训练模型的泛化能力,并且从多个主干网络中提取了A和V模态的特征。FlyingPigs[47]结合了文本模态与A和V模态,并使用领导者-跟随者注意力策略在A-V融合基础上取得了改进。除了这些,AU-NO[50]是唯一依赖A-V融合的方法。他们研究了注意力机制,如自我注意力和交叉注意力,与循环网络的性能。他们还使用了额外的损失组件,包括均方误差(MSE)和类别交叉熵损失,与CCC一起。PRL[48]和HSE-NN[49]仅使用了视觉模态,其中[PRL]使用了基于集成的策略,而[HSE-NN]使用了外部的AffectNet数据集[51]以获得更好的表现。值得一提的是,除了将预测裁剪到[-1,1]的范围内之外,我们没有使用任何高级损失组件或对预测进行后处理操作,如交叉验证等。我们没有使用任何外部数据集或A和V模态的多个主干网络的特征。所提出方法的表现完全归因于我们融合模型的有效性。我们观察到,融合性能在单一模态表现的基础上有了显著提升,特别是在效价值方面。通过特征级或决策级融合的方式融合多个A和V主干网络,类似于挑战赛获胜者[46]的做法,我们的融合模型可以进一步改进。

6. 结论

这项工作引入了联合交叉注意力机制用于基于视频的情感识别(ER)中的音频-视频(A-V)融合,利用了音频和视频特征间的模态内和模态间的关系。具体来说,基于组合的A-V特征与单独的A和V特征之间的相关性,有效地捕捉了A和V特征之间的互补关系。通过共同建模模态内和模态间的关系,每个模态的特征不仅关注自身,也关注另一个模态,从而产生了稳健的A和V特征表示。

在提出的模型中,首先分别训练A和V主干网络,用于面部(V)和声学(A)模态。然后,基于联合和个体特征之间的相关性,应用一种注意力机制以获取加权的A和V特征。最后,这些注意力加权的特征被拼接并输入到线性连接层,以预测效价值和唤醒度值。

所提出的A-V融合模型在具有挑战性的Affwild2视频数据集上进行了实验验证,使用了不同的A和V主干网络。实验结果表明,该模型通过有效融合A和V模态,实现了卓越的多模态性能。



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。