DBN Based Multi-stream Multi-states Model for Continue Audio-Visual Speech Recognition

Ilse Ravyse,Rong-Chun Zhao,Dong-Mei Jiang,H Sahli,Guo-Yun Lü,Yan-Ning Zhang,W Verhelst

doi:10.3724/sp.j.1146.2007.00915

DBN Based Multi-stream Multi-states Model for Continue Audio-Visual Speech Recognition

Ilse Ravyse, Rong-Chun Zhao + Show 5 more

Open Access

https://doi.org/10.3724/sp.j.1146.2007.00915

Copy DOI

Journal: Journal of Electronics & Information Technology	Publication Date: Apr 22, 2011
License type: cc-by

#Audio Stream #Audio-Visual Speech Recognition + Show 8 more

Abstract
Full-Text PDF
Similar Papers

Abstract

语音和唇部运动的异步性是多模态融合语音识别的关键问题，该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型，在词的级别上描述了音频流和视频流的异步性，音视频流都采用了词-音素的层次结构。而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展，音视频流都采用了词-音素-状态的层次结构。本质上，MS-ADBN是一个整词模型，而MM-ADBN模型是一个音素模型，适用于大词汇量连续语音识别。实验结果表明：基于连续音视频数据库，在纯净语音环境下，MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%。

Full Text