Telechargé par yadavev d

复杂场景下微唇语数据集的构建与关键技术

复杂场景下微唇语数据集的构建与关键技术
吴嘉峰 1 吕瀚祥 1 方文琪 1 张添翼 1 余易昕 2 姜昌龙 1 肖阳 1 王然 23*
（ 1.华中科技大学人工智能与自动化学院，武汉，430074）
（ 2.华中科技大学新闻与信息传播学院，武汉，430074）
（ 3.华中科技大学未来技术学院，武汉，430074）
1 研究背景和意义
唇读是一种通过视觉信息识别说话内容的能力[1]，对于提升自动化系统能力至关重要，例如在智能
医疗中实现社交机器人与患者的无声交互、增强安全系统的多模态认证以及改善嘈杂工业环境下的人机
指令识别。1
这是一项引人注目但极具挑战性的任务，过去数十年间已有大量研究投入到唇读领域[1–13]。然而，
大多数研究都未考虑日常生活中的常见微唇读场景：医院临终遗言、与老年或渐冻症患者对话、自然场
景下的耳语交流，甚至仅是某些人的说话习惯等。与受控条件下（具有相对一致的实验对象和环境设置）
的正常说话相比，自然场景下的微唇读具有更细微的唇部动作和更复杂的背景（如图 1 所示），需要有
效且鲁棒地提取更精细的特征。同时，现有唇读数据集[1–6]通常采集于正常唇部运动条件下。因此，开
发适用于这些场景的有效微唇读方法已成为保障系统性能的关键。
为此，我们首先构建了一个具有挑战性的标注微唇读数据集 HUST-LMLR（数据集项目地址：
https://github.com/HUST-DPKW/Micro-lip-reading/tree/main）。该数据集包含从 40 部无约束电影或纪录
片中采集的 399 个语音视频片段样本。据我们所知，HUST-LMLR 是首个涉及时空序列信息的微唇读数
据集。如图 1 所示，HUST-LMLR 中的样本唇部运动明显比 LRS2[2]等数据集中的正常说话者更为细微。
此外，考虑到实际应用中人脸姿态、光照、遮挡等因素的剧烈变化，HUST-LMLR 亦具有“自然场景”特
性。这些因素共同对精准微唇读构成了重大挑战，其核心在于如何有效且鲁棒地提取唇部运动的精细特
征。
图1
受限场景与自然场景唇动特征的差异
由于微唇读视频帧间高度相似，细微特征易受自然场景中微小干扰的影响。现有模型在注意力机制
上也倾向于分散到其他面部区域，而非关键的唇部区域。然而，唇周乃至面部其他区域均可为唇读提供
有价值的上下文信息。因此，本研究致力于在微唇读场景下，通过优化注意力机制和特征提取方法，以
提升模型性能。
2 主要研究工作
我们的主要研究工作主要在于两个方面：第一，提出了第一个非受限环境下微唇读数据集
HUST-LMLR，第二，提出了一种非受限环境下微唇读方法。
2.1
1.
2.
HUST-LMLR：标注的微唇语数据集
*通讯作者，E-mail: [email protected]
本研究得到未来技术太湖创新基金，HUST：2023-B-8、中央高校基本科研业务费专项资金，HUST：82400049 和国
家自然科学基金（批准号：62271221）的资助。计算在华中科技大学高性能计算平台上完成。
1
与现有唇读数据集相比，HUST-LMLR 的显著特点在于其样本的唇部运动更为微小，这主要源
于我们选取的样本多为疾病、临终等特殊情境下的讲话者。为确保数据集的“自然场景”特性，我
们从 40 部无约束的电影或纪录片中采集了 399 个视频片段，而非在受控实验室环境下招募志愿者。
这些影片在国家、人种、年龄和场景上均存在差异，保证了样本的多样性(如图 2 所示)。
数据采集与样本筛选：我们人工筛选出具有微小唇部变化的片段。筛选标准包括面部至少可见
四分之三、唇部区域无遮挡等。为客观量化“微小”特征，我们计算了唇部区域（ROI）内相邻帧图
像的余弦相似度，并构建相关系数矩阵。与 LRS2 等数据集相比，HUST-LMLR 样本的帧间相似度更
高，表明唇部运动更细微。
数据标注与划分：包括句子提取（借助字幕和 VAD 算法对齐文本与视频）、面部校正（人工绘制
边界框）和图像大小调整。标注流程包括基于字幕和 VAD 算法的句子提取、人工面部校正及图像大小
调整。399 个样本被划分为 319 个训练样本和 80 个测试样本，划分时确保了低频词在集合间的均衡分布，
且同一电影的片段不交叉出现。
图2
HUST-LMLR 中构建的细微唇动与复杂背景样本示例
2.2 微唇读方法
针对微唇读场景下唇部动作细微、背景复杂导致现有模型性能不佳的问题，我们提出了一种新
的微唇读方法，主要从多任务学习和特征提取两方面进行优化。
基于多任务学习的面部上下文注意力：为解决现有模型在推理时注意力分散的问题，我们引入
了面部特征点检测作为辅助任务，与唇读任务进行联合学习。这种方法基于面部特征点检测与唇读
任务的高度相关性，通过共享骨干网络，并利用特征点检测的监督信号（如 RTMPose[14]生成的伪标
签和 KL 散度损失函数）引导模型更关注唇部区域，同时借鉴唇周区域的上下文信息，从而提升微
唇读性能。训练流程包括预处理、基于 Seq2Seq 的视觉前端和后端预训练、以及最终在 LRS2 上的微
调。实验证明，多任务学习能有效加快模型收敛速度并提升准确率。
图3
视觉前端预训练方法的技术流程
基于静态和动态特征的前端预训练：考虑到微唇读视频帧间高度相似，单纯依赖外观特征难以
捕捉细微唇动。为此我们提出了一种双流卷积网络（结构如图 3 右）联合提取静态（原始帧）和动
态（差分帧）特征。外观特征퐹푎푝푝 和运动特征퐹푑푖푓 分别由独立的 3Dblocks 从原始视频帧和差分帧中
提取。差分帧的使用旨在凸显细微的运动信息。为了增强特征表达能力，在两个分支的每一层网络
2
中，我们设计了融合模块将动态特征和静态特征进行结合。融合后的特征会更新动态特征分支，以
增强其丰富性。之后，利用带通道注意力机制的 2D 卷积模块（2Dblocks）对融合特征进行进一步的
压缩和细化，最终将得到的特征序列馈送到后端（如 TM-Seq2Seq）进行解码，输出识别的句子。
3 实验或仿真
为评估所提方法的性能，本文在自建的 HUST-LMLR 数据集与公开的、广泛使用的大规模句子级的
唇读基准 LRS2 数据集上进行了全面实验，并与多种先进算法进行比较，包括 WAS、DAVSR-TMCTC、
DAVSR-TMS2S 和 AUTO-AVSR。在训练中，模型输入为 88✕88 的图像区域，采用 Adam 优化器和余弦
学习率衰减策略进行训练。所有实验均采用词错误率（Word Error Rate, WER）作为评价指标，即衡量
识别结果中被替换、插入或删除的单词所占的比例，WER 越低，性能越优。
3.1 微唇读方法
实验结果如表 1 所示。所有受测算法在 HUST-LMLR 上的性能均显著下降，最优 WER 仅为 64.9%，
显著低于其在 LRS2 数据集上的表现，这凸显了自然场景下微唇读任务的固有高难度。本文方法在两个
数据集上均取得最优性能。在 LRS2 上，WER 达到 30.7%，较 SOTA 方法 AUTO-AVSR 降低了 9.9%；
在 HUST-LMLR 上，WER 为 64.9%，较 DAVSR-TMS2S 降低了 26.3%，验证了方法的有效性与泛化能
力。
表1
不同方法在 LRS2 和 HUST-LMLR 数据集上的性能比较
效率方面，如表 2 所示，本方法在参数量与计算需求上与部分先进方法持平或有所降低，在未增加
额外计算开销的前提下实现了性能提升，增强了实用价值。
表2
不同方法的模型规模和计算量比较
3.2 消融研究
为验证各核心模块的贡献，本文进行了消融研究。
结果如表 3 所示，证明了这两种方法均能显著提升性能。引入唇读任务和面部关键点检测的多任务
学习方法，在 WER 上取得了显著改进，LRS2 数据集提升了 7.3%，HUST-LMLR 数据集提升了 11.3%。
这可能是因为对于微表情唇读任务，通过软注意力机制可以更有效地从微小的唇部运动中提取细粒度特
征，从而使模型聚焦于唇部区域，并充分利用其他区域的上下文线索。值得注意的是，多任务学习带来
的改进在两个数据集上均优于单纯的特征提取改进。特征提取方面，为了捕捉微表情唇读中更细粒度的
唇部运动表征，我们提出联合使用 3D 模块提取外观和运动特征。实验结果表明，移除运动特征后，模
型在 LRS2 和 HUST-LMLR 数据集上的性能分别下降了 2.2%和 2.4%。运动特征在 HUST-LMLR 数据集
上比较 LRS2 带来了更好的性能提升，这表明运动特征确实能有效提取唇部运动模式，尤其适用于微表
情唇读任务。
3
表3
多任务学习及特征提取方式消融实验结果
4 结论
本研究旨在解决自然场景下微唇读（Micro Lip Reading）这一新兴且富有挑战性的课题。我们构建
了首个专门针对自然环境下微小唇部运动场景的基准数据集 HUST-LMLR，实验证明现有先进模型在该
数据集上性能显著下降，从而凸显了此任务的固有难度。此外，我们提出了一种高效的微唇读新方法，
通过创新的多任务学习框架，首次将面部关键点检测作为辅助监督信号，以引导模型聚焦于唇部区域；
同时设计了动态与静态特征融合的双流网络，以鲁棒地捕捉细微的唇部变化。大量的实验验证了本方法
的优越性与泛化能力：在公开数据集 LRS2 上，本方法将词错误率（WER）较当前最优方法降低了 9.9%；
在更具挑战性的 HUST-LMLR 上，性能提升超过 26%。此项工作不仅为微唇读领域提供了亟需的基准，
也为解决该难题提出了一种性能卓越的方案。
参考文献
[1]
CHUNG J S, ZISSERMAN A. Lip Reading in the Wild[C/OL]//LAI S H, LEPETIT V, NISHINO K, et al. Computer Vision
ACCV 2016. Cham: Springer International Publishing, 2017: 87-103. DOI:10.1007/978-3-319-54184-6_6.
[2]
AFOURAS T, CHUNG J S, SENIOR A, et al. Deep Audio-Visual Speech Recognition[J/OL]. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 2022, 44(12): 8717-8727. DOI:10.1109/TPAMI.2018.2889052.
[3]
AFOURAS T, CHUNG J S, ZISSERMAN A. LRS3-TED: a large-scale dataset for visual speech recognition[A/OL]. arXiv,
2018[2025-05-29]. http://arxiv.org/abs/1809.00496. DOI:10.48550/arXiv.1809.00496.
[4]
COOKE M, BARKER J, CUNNINGHAM S, et al. An audio-visual corpus for speech perception and automatic speech
recognition[J/OL]. The Journal of the Acoustical Society of America, 2006, 120(5): 2421-2424. DOI:10.1121/1.2229005.
[5]
ZHAO G, BARNARD M, PIETIKAINEN M. Lipreading With Local Spatiotemporal Descriptors[J/OL]. IEEE Transactions
on Multimedia, 2009, 11(7): 1254-1265. DOI:10.1109/TMM.2009.2030637.
[6]
YANG S, ZHANG Y, FENG D, et al. LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the
Wild[C/OL]//2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019). 2019:
1-8[2025-05-29]. https://ieeexplore.ieee.org/abstract/document/8756582. DOI:10.1109/FG.2019.8756582.
[7]
ANINA I, ZHOU Z, ZHAO G, et al. OuluVS2: A multi-view audiovisual database for non-rigid mouth motion
analysis[C/OL]//2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG): 卷
1. 2015: 1-5[2025-05-29]. https://ieeexplore.ieee.org/abstract/document/7163155. DOI:10.1109/FG.2015.7163155.
[8]
SON CHUNG J, SENIOR A, VINYALS O, et al. Lip reading sentences in the wild[C/OL]//Proceedings of the IEEE
conference on computer vision and pattern recognition. 2017: 6447-6456[2025-05-29].
[9]
NODA K, YAMAGUCHI Y, NAKADAI K, et al. Lipreading using convolutional neural network[C/OL]//Interspeech 2014.
ISCA, 2014: 1149-1153[2025-05-29].
[10] HUANG Y hui, LIANG J, PAN B chang, et al. A new lip-automatic detection and location algorithm in lip-reading
system[C/OL]//2010 IEEE International Conference on Systems, Man and Cybernetics. 2010: 2402-2405[2025-05-29].
https://ieeexplore.ieee.org/abstract/document/5641954. DOI:10.1109/ICSMC.2010.5641954.
[11] YUE Z, RONG C, WANG Y, et al. Lip-reading based on fuzzy language model[C/OL]//2015 International Conference on
Wireless Communications & Signal Processing (WCSP). IEEE, 2015: 1-5[2025-05-29].
[12] STAFYLAKIS T, TZIMIROPOULOS G. Combining Residual Networks with LSTMs for Lipreading[A/OL]. arXiv,
2017[2025-05-29]. http://arxiv.org/abs/1703.04105. DOI:10.48550/arXiv.1703.04105.
[13] ASSAEL Y M, SHILLINGFORD B, WHITESON S, et al. LipNet: End-to-End Sentence-level Lipreading[A/OL]. arXiv,
2016[2025-05-29]. http://arxiv.org/abs/1611.01599. DOI:10.48550/arXiv.1611.01599.
[14] JIANG T, LU P, ZHANG L, et al RTMPose: Real-Time Multi-Person Pose Estimation based on MMPose[A/OL]. arXiv,
2023[2025-05-29]. http://arxiv.org/abs/2303.07399. DOI:10.48550/arXiv.2303.07399.
[15] MA P, HALIASSOS A, FERNANDEZ-LOPEZ A, et al. Auto-AVSR: Audio-Visual Speech Recognition with Automatic
Labels[C/OL]//ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2023:
1-5[2025-05-30]. https://ieeexplore.ieee.org/abstract/document/10096889. DOI:10.1109/ICASSP49357.2023.10096889.
4

复杂场景下微唇语数据集的构建与关键技术

Produits

Assistance

复杂场景下微唇语数据集的构建与关键技术

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib