复杂场景下微唇语数据集的构建与关键技术 吴嘉峰 1 吕瀚祥 1 方文琪 1 张添翼 1 余易昕 2 姜昌龙 1 肖阳 1 王然 23* ( 1.华中科技大学人工智能与自动化学院,武汉,430074) ( 2.华中科技大学新闻与信息传播学院,武汉,430074) ( 3.华中科技大学未来技术学院,武汉,430074) 1 研究背景和意义 唇读是一种通过视觉信息识别说话内容的能力[1],对于提升自动化系统能力至关重要,例如在智能 医疗中实现社交机器人与患者的无声交互、增强安全系统的多模态认证以及改善嘈杂工业环境下的人机 指令识别。1 这是一项引人注目但极具挑战性的任务,过去数十年间已有大量研究投入到唇读领域[1–13]。然而, 大多数研究都未考虑日常生活中的常见微唇读场景:医院临终遗言、与老年或渐冻症患者对话、自然场 景下的耳语交流,甚至仅是某些人的说话习惯等。与受控条件下(具有相对一致的实验对象和环境设置) 的正常说话相比,自然场景下的微唇读具有更细微的唇部动作和更复杂的背景(如图 1 所示),需要有 效且鲁棒地提取更精细的特征。同时,现有唇读数据集[1–6]通常采集于正常唇部运动条件下。因此,开 发适用于这些场景的有效微唇读方法已成为保障系统性能的关键。 为此,我们首先构建了一个具有挑战性的标注微唇读数据集 HUST-LMLR(数据集项目地址: https://github.com/HUST-DPKW/Micro-lip-reading/tree/main)。该数据集包含从 40 部无约束电影或纪录 片中采集的 399 个语音视频片段样本。据我们所知,HUST-LMLR 是首个涉及时空序列信息的微唇读数 据集。如图 1 所示,HUST-LMLR 中的样本唇部运动明显比 LRS2[2]等数据集中的正常说话者更为细微。 此外,考虑到实际应用中人脸姿态、光照、遮挡等因素的剧烈变化,HUST-LMLR 亦具有“自然场景”特 性。这些因素共同对精准微唇读构成了重大挑战,其核心在于如何有效且鲁棒地提取唇部运动的精细特 征。 图1 受限场景与自然场景唇动特征的差异 由于微唇读视频帧间高度相似,细微特征易受自然场景中微小干扰的影响。现有模型在注意力机制 上也倾向于分散到其他面部区域,而非关键的唇部区域。然而,唇周乃至面部其他区域均可为唇读提供 有价值的上下文信息。因此,本研究致力于在微唇读场景下,通过优化注意力机制和特征提取方法,以 提升模型性能。 2 主要研究工作 我们的 主 要研究 工 作主要 在 于 两 个 方 面: 第一 , 提 出 了 第 一 个 非 受 限 环 境 下 微 唇 读 数 据集 HUST-LMLR,第二,提出了一种非受限环境下微唇读方法。 2.1 1. 2. HUST-LMLR:标注的微唇语数据集 *通讯作者,E-mail: [email protected] 本研究得到未来技术太湖创新基金,HUST:2023-B-8、中央高校基本科研业务费专项资金,HUST:82400049 和国 家自然科学基金(批准号:62271221)的资助。计算在华中科技大学高性能计算平台上完成。 1 与现有唇读数据集相比,HUST-LMLR 的显著特点在于其样本的唇部运动更为微小,这主要源 于我们选取的样本多为疾病、临终等特殊情境下的讲话者。为确保数据集的“自然场景”特性,我 们从 40 部无约束的电影或纪录片中采集了 399 个视频片段,而非在受控实验室环境下招募志愿者。 这些影片在国家、人种、年龄和场景上均存在差异,保证了样本的多样性(如图 2 所示)。 数据采集与样本筛选:我们人工筛选出具有微小唇部变化的片段。筛选标准包括面部至少可见 四分之三、唇部区域无遮挡等。为客观量化“微小”特征,我们计算了唇部区域(ROI)内相邻帧图 像的余弦相似度,并构建相关系数矩阵。与 LRS2 等数据集相比,HUST-LMLR 样本的帧间相似度更 高,表明唇部运动更细微。 数据标注与划分:包括句子提取(借助字幕和 VAD 算法对齐文本与视频)、面部校正(人工绘制 边界框)和图像大小调整。标注流程包括基于字幕和 VAD 算法的句子提取、人工面部校正及图像大小 调整。399 个样本被划分为 319 个训练样本和 80 个测试样本,划分时确保了低频词在集合间的均衡分布, 且同一电影的片段不交叉出现。 图2 HUST-LMLR 中构建的细微唇动与复杂背景样本示例 2.2 微唇读方法 针对微唇读场景下唇部动作细微、背景复杂导致现有模型性能不佳的问题,我们提出了一种新 的微唇读方法,主要从多任务学习和特征提取两方面进行优化。 基于多任务学习的面部上下文注意力: 为解决现有模型在推理时注意力分散的问题,我们引入 了面部特征点检测作为辅助任务,与唇读任务进行联合学习。这种方法基于面部特征点检测与唇读 任务的高度相关性,通过共享骨干网络,并利用特征点检测的监督信号(如 RTMPose[14]生成的伪标 签和 KL 散度损失函数)引导模型更关注唇部区域,同时借鉴唇周区域的上下文信息,从而提升微 唇读性能。训练流程包括预处理、基于 Seq2Seq 的视觉前端和后端预训练、以及最终在 LRS2 上的微 调。实验证明,多任务学习能有效加快模型收敛速度并提升准确率。 图3 视觉前端预训练方法的技术流程 基于静态和动态特征的前端预训练:考虑到微唇读视频帧间高度相似,单纯依赖外观特征难以 捕捉细微唇动。为此我们提出了一种双流卷积网络(结构如图 3 右)联合提取静态(原始帧)和动 态(差分帧)特征。外观特征퐹푎푝푝 和运动特征퐹푑푖푓 分别由独立的 3Dblocks 从原始视频帧和差分帧中 提取。差分帧的使用旨在凸显细微的运动信息。为了增强特征表达能力,在两个分支的每一层网络 2 中,我们设计了融合模块将动态特征和静态特征进行结合。融合后的特征会更新动态特征分支,以 增强其丰富性。之后,利用带通道注意力机制的 2D 卷积模块(2Dblocks)对融合特征进行进一步的 压缩和细化,最终将得到的特征序列馈送到后端(如 TM-Seq2Seq)进行解码,输出识别的句子。 3 实验或仿真 为评估所提方法的性能,本文在自建的 HUST-LMLR 数据集与公开的、广泛使用的大规模句子级的 唇读基准 LRS2 数据集上进行了全面实验,并与多种先进算法进行比较,包括 WAS、DAVSR-TMCTC、 DAVSR-TMS2S 和 AUTO-AVSR。在训练中,模型输入为 88✕88 的图像区域,采用 Adam 优化器和余弦 学习率衰减策略进行训练。所有实验均采用词错误率(Word Error Rate, WER)作为评价指标,即衡量 识别结果中被替换、插入或删除的单词所占的比例,WER 越低,性能越优。 3.1 微唇读方法 实验结果如表 1 所示。所有受测算法在 HUST-LMLR 上的性能均显著下降,最优 WER 仅为 64.9%, 显著低于其在 LRS2 数据集上的表现,这凸显了自然场景下微唇读任务的固有高难度。本文方法在两个 数据集上均取得最优性能。在 LRS2 上,WER 达到 30.7%,较 SOTA 方法 AUTO-AVSR 降低了 9.9%; 在 HUST-LMLR 上,WER 为 64.9%,较 DAVSR-TMS2S 降低了 26.3%,验证了方法的有效性与泛化能 力。 表1 不同方法在 LRS2 和 HUST-LMLR 数据集上的性能比较 效率方面,如表 2 所示,本方法在参数量与计算需求上与部分先进方法持平或有所降低,在未增加 额外计算开销的前提下实现了性能提升,增强了实用价值。 表2 不同方法的模型规模和计算量比较 3.2 消融研究 为验证各核心模块的贡献,本文进行了消融研究。 结果如表 3 所示,证明了这两种方法均能显著提升性能。引入唇读任务和面部关键点检测的多任务 学习方法,在 WER 上取得了显著改进,LRS2 数据集提升了 7.3%,HUST-LMLR 数据集提升了 11.3%。 这可能是因为对于微表情唇读任务,通过软注意力机制可以更有效地从微小的唇部运动中提取细粒度特 征,从而使模型聚焦于唇部区域,并充分利用其他区域的上下文线索。值得注意的是,多任务学习带来 的改进在两个数据集上均优于单纯的特征提取改进。特征提取方面,为了捕捉微表情唇读中更细粒度的 唇部运动表征,我们提出联合使用 3D 模块提取外观和运动特征。实验结果表明,移除运动特征后,模 型在 LRS2 和 HUST-LMLR 数据集上的性能分别下降了 2.2%和 2.4%。运动特征在 HUST-LMLR 数据集 上比较 LRS2 带来了更好的性能提升,这表明运动特征确实能有效提取唇部运动模式,尤其适用于微表 情唇读任务。 3 表3 多任务学习及特征提取方式消融实验结果 4 结论 本研究旨在解决自然场景下微唇读(Micro Lip Reading)这一新兴且富有挑战性的课题。我们构建 了首个专门针对自然环境下微小唇部运动场景的基准数据集 HUST-LMLR,实验证明现有先进模型在该 数据集上性能显著下降,从而凸显了此任务的固有难度。此外,我们提出了一种高效的微唇读新方法, 通过创新的多任务学习框架,首次将面部关键点检测作为辅助监督信号,以引导模型聚焦于唇部区域; 同时设计了动态与静态特征融合的双流网络,以鲁棒地捕捉细微的唇部变化。大量的实验验证了本方法 的优越性与泛化能力:在公开数据集 LRS2 上,本方法将词错误率(WER)较当前最优方法降低了 9.9%; 在更具挑战性的 HUST-LMLR 上,性能提升超过 26%。此项工作不仅为微唇读领域提供了亟需的基准, 也为解决该难题提出了一种性能卓越的方案。 参考文献 [1] CHUNG J S, ZISSERMAN A. Lip Reading in the Wild[C/OL]//LAI S H, LEPETIT V, NISHINO K, et al. Computer Vision ACCV 2016. Cham: Springer International Publishing, 2017: 87-103. DOI:10.1007/978-3-319-54184-6_6. [2] AFOURAS T, CHUNG J S, SENIOR A, et al. Deep Audio-Visual Speech Recognition[J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(12): 8717-8727. DOI:10.1109/TPAMI.2018.2889052. [3] AFOURAS T, CHUNG J S, ZISSERMAN A. LRS3-TED: a large-scale dataset for visual speech recognition[A/OL]. arXiv, 2018[2025-05-29]. http://arxiv.org/abs/1809.00496. DOI:10.48550/arXiv.1809.00496. [4] COOKE M, BARKER J, CUNNINGHAM S, et al. An audio-visual corpus for speech perception and automatic speech recognition[J/OL]. The Journal of the Acoustical Society of America, 2006, 120(5): 2421-2424. DOI:10.1121/1.2229005. [5] ZHAO G, BARNARD M, PIETIKAINEN M. Lipreading With Local Spatiotemporal Descriptors[J/OL]. IEEE Transactions on Multimedia, 2009, 11(7): 1254-1265. DOI:10.1109/TMM.2009.2030637. [6] YANG S, ZHANG Y, FENG D, et al. LRW-1000: A Naturally-Distributed Large-Scale Benchmark for Lip Reading in the Wild[C/OL]//2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019). 2019: 1-8[2025-05-29]. https://ieeexplore.ieee.org/abstract/document/8756582. DOI:10.1109/FG.2019.8756582. [7] ANINA I, ZHOU Z, ZHAO G, et al. OuluVS2: A multi-view audiovisual database for non-rigid mouth motion analysis[C/OL]//2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG): 卷 1. 2015: 1-5[2025-05-29]. https://ieeexplore.ieee.org/abstract/document/7163155. DOI:10.1109/FG.2015.7163155. [8] SON CHUNG J, SENIOR A, VINYALS O, et al. Lip reading sentences in the wild[C/OL]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 6447-6456[2025-05-29]. [9] NODA K, YAMAGUCHI Y, NAKADAI K, et al. Lipreading using convolutional neural network[C/OL]//Interspeech 2014. ISCA, 2014: 1149-1153[2025-05-29]. [10] HUANG Y hui, LIANG J, PAN B chang, et al. A new lip-automatic detection and location algorithm in lip-reading system[C/OL]//2010 IEEE International Conference on Systems, Man and Cybernetics. 2010: 2402-2405[2025-05-29]. https://ieeexplore.ieee.org/abstract/document/5641954. DOI:10.1109/ICSMC.2010.5641954. [11] YUE Z, RONG C, WANG Y, et al. Lip-reading based on fuzzy language model[C/OL]//2015 International Conference on Wireless Communications & Signal Processing (WCSP). IEEE, 2015: 1-5[2025-05-29]. [12] STAFYLAKIS T, TZIMIROPOULOS G. Combining Residual Networks with LSTMs for Lipreading[A/OL]. arXiv, 2017[2025-05-29]. http://arxiv.org/abs/1703.04105. DOI:10.48550/arXiv.1703.04105. [13] ASSAEL Y M, SHILLINGFORD B, WHITESON S, et al. LipNet: End-to-End Sentence-level Lipreading[A/OL]. arXiv, 2016[2025-05-29]. http://arxiv.org/abs/1611.01599. DOI:10.48550/arXiv.1611.01599. [14] JIANG T, LU P, ZHANG L, et al RTMPose: Real-Time Multi-Person Pose Estimation based on MMPose[A/OL]. arXiv, 2023[2025-05-29]. http://arxiv.org/abs/2303.07399. DOI:10.48550/arXiv.2303.07399. [15] MA P, HALIASSOS A, FERNANDEZ-LOPEZ A, et al. Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels[C/OL]//ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2023: 1-5[2025-05-30]. https://ieeexplore.ieee.org/abstract/document/10096889. DOI:10.1109/ICASSP49357.2023.10096889. 4