[发明专利]视觉语音识别方法有效
申请号: | 201410203068.X | 申请日: | 2014-05-14 |
公开(公告)号: | CN104166855B | 公开(公告)日: | 2018-12-04 |
发明(设计)人: | E·贝海姆;H·萨比 | 申请(专利权)人: | 鹦鹉汽车股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈小刚 |
地址: | 法国*** | 国省代码: | 法国;FR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 跟踪 讲话 一组 感兴趣 局部 变形 进行 视觉 语音 识别 方法 | ||
本申请涉及通过跟踪讲话者的嘴部的一组感兴趣点的局部变形来进行视觉语音识别的方法。该方法包括下列步骤:a)对于每一图像的每一兴趣点,计算局部梯度描述符和局部移动描述符;b)形成n个兴趣点的微结构,每一微结构由n阶元组来定义,其中n≥1;c)对于每一元组,基于局部描述符来确定结构化视觉特性的向量(d0…d3…);d)对于每一元组,通过选择形成码本(CB)的码字集合中的单个码字的分类算法来映射这一向量;e)对于视频序列的各连续图像,生成码字的有序时间序列(a0…a3…);以及f)通过串核类型的函数,测量码字的时间序列与来自另一讲话者的码字的另一时间序列的相似性。
技术领域
本发明涉及视觉语音-活动识别或VSR(视觉话音识别),这是一种也称为“读唇”的技术,其在于通过分析由讲话者的嘴部区域的一连串图像形成的视频序列来操作所讲语言的自动识别。
背景技术
所研究的区域(此后称为“嘴部区域”)包括唇部及其紧邻区域,并且可能扩展至覆盖脸部的更广区域,包括例如下巴和脸颊。
这一技术的可能应用(这当然是非限制性的)是在非常嘈杂的环境中(如在机动车的旅客车厢中)使用的“免提”电话系统的语音识别。
链接到周围噪声的这种困难在这一应用中尤其具有限制性,这是由于话筒(置于仪表板处或在旅客车厢顶的上部角落中)与讲话者之间的巨大距离(其远离程度受驾驶位置的约束),这造成拾取了相对高的噪声水平并且因此造成了难以提取嵌入在噪声中的有用信号。此外,机动车的典型的非常嘈杂的环境具有因变于驾驶条件(碾在不平或铺鹅卵石的路面上、运行车载收音机,等等)而不可预期地演化的特性,这非常复杂而不能由隔音算法基于对话筒所拾取的信号的分析考虑进去。
因此,存在着对使得可能在其中声学装置的识别由于过度降级的信号/噪声比而不再能正确地实现的情境中以高度的确定性来识别例如讲话者所说出的电话号码的数字的系统的需求。此外,已经观察到,诸如/b/、/v/、/n/或/m/等声音在音频域中通常易于误解,而在视觉域中则没有模糊性,从而声学识别装置与视觉识别装置的关联可以自然地提供其中常规纯音频系统缺少鲁棒性的嘈杂环境中的性能的显著改进。
然而,迄今为止所提出的自动读唇系统的性能仍然不足,主要困难在于提取与区别讲话者所说的不同单词或单词部分的真正相关的视觉特性。此外,各讲话者之间唇部的外观和移动中所存在的固有可变性使得现有系统的性能很差。
另外,迄今所提出的视觉语音-活动识别系统实现了需要非常重要的软件和硬件装置的人工智能的技术,几乎不能在具有非常严格的成本约束的非常广泛地分布的产品的框架内构想,而不管它们是合并到车辆的系统还是合并了电话通信的所有信号处理组件和功能的可移动盒形式的附件。
因此,仍然存在着对具有其实现既鲁棒又节省计算资源的视觉语音识别算法的真实需求,尤其是在能够“在进行中”(几乎实时地)执行这一语音识别的情况下。
Ju等人的文章“Speaker Dependent Visual Speech Recognition by Symboland Rear Value Assignment(通过符号和后赋值的讲话者无关的视觉语音识别)”,RobotIntelligence Technology and Applications 2012 Advances in Intelligent Systemsand Computing(智能系统和计算中的机器人智能技术和应用2012进步),施普林格,第1015-1022页,2013年1月,第1015-1022页,描述了这样的通过对视频序列的VSR分析来进行自动语音识别的算法,但在它没有将局部视觉语音特性与各兴趣点之间的空间关系进行组合的程度上,其效率仍然具体地受限的。
这些算法的其他方面在以下文献中开发:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹦鹉汽车股份有限公司,未经鹦鹉汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410203068.X/2.html,转载请声明来源钻瓜专利网。