[发明专利]基于车辆的对乘员音频和可视输入的确定有效
申请号: | 201180075888.X | 申请日: | 2011-12-26 |
公开(公告)号: | CN104011735B | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | P·王;Y·张 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G10L15/22 |
代理公司: | 永新专利商标代理有限公司72002 | 代理人: | 刘瑜,王英 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 车辆 乘员 音频 可视 输入 确定 | ||
背景技术
语音控制系统通常伴随具有离线训练和在线识别的基于统计学的算法。在学术界和工业界,发言者识别(例如,谁正在发言)和话语识别(例如,正在说什么)已成为两个活跃的主题。语音识别典型地被理解为发言者识别和话语识别的组合。语音识别可以使用发言者语音的所学习的方面来确定正在说什么。例如,某些语音识别系统可能无法非常准确地识别来自随机发言者的话语,但对已由语音识别系统训练过的个体语音可以达到高准确度。
音频-可视话语识别在学术界已经研究了几十年。普通的音频-可视话语识别包括面部检测、跟踪;面部特征定位;用于可视话语的面部特征表示;话语的音频和可视表示的融合。
现有用于车载信息娱乐(IVI)系统(例如OnStar、SYNC、以及Nuance)的话语控制系统典型地依赖于声学信号处理技术来进行话语识别。现有用于车载信息娱乐的话语控制系统尚未引入可视信号处理技术来进行语音识别。
附图说明
在附图中以示例方式而不是以限制的方式说明了本文描述的内容。为了说明的简单和清晰,在附图中示出的元件不一定按比例绘制。例如,为了清晰,某些元件的尺寸可能相对其他元件被放大了。此外,在认为适当之处,附图标记在附图之间重复,以指示相应的或类似的元件。在附图中:
图1为示例性车载信息娱乐(IVI)系统的示意图;
图2为示出了示例性语音识别过程的流程图;
图3为操作中的示例性车载信息娱乐系统(IVI)的示意图;
图4示出了在唇部跟踪期间被处理的若干示例性图像;
图5是示例性系统的示意图;以及
图6是全部根据本公开的至少一些实现方式布置的示例性系统的示意图。
具体实施方式
现在参考随附的附图对一个或多个实施例或实现方式进行描述。虽然讨论的是具体的配置和布置,但应当理解,这仅是出于举例说明的目的进行的。相关领域技术人员将认识到,在不脱离本说明书精神和范围的情况下可以使用其它配置和布置。在此描述的技术和/或布置也可以在不同于在此所描述的各种其它系统和应用中使用,这对相关领域技术人员来说是显而易见的。
虽然下述说明提出了可以体现在例如像片上系统(SoC)架构的架构中的各种实现方式,但在此所描述的技术和/或布置的实现方式并不限于具体的架构和/或计算系统,并且可以通过任何用于类似目的的架构和/或计算系统来实现。举例来说,例如采用多个集成电路(IC)芯片和/或封装的各种架构、和/或各种计算设备和/或消费性电子产品(CE)设备(例如机顶盒、智能电话等)可以实现在此所描述的技术和/或布置。此外,虽然下述说明可能提出许多具体细节(诸如系统组件的逻辑实现方式、类型和相互关系,逻辑划分/集成选择等等),但要求保护的主题可以在没有这些具体细节的情况下被实现。在其他例子中,例如,可能没有详细地示出诸如控制结构和完整的软件指令序列之类的一些内容,以免模糊这里所公开的内容。
在此所公开的内容可以用硬件、固件、软件或它们的任意组合来实现。在此所公开的内容也可以作为存储在机器可读介质上的指令来实现,所述指令可以由一个或多个处理器读出并执行。机器可读介质可以包括任何用于以机器(例如,计算设备)可读形式存储或传送信息的介质和/或机制。例如,机器可读介质可以包括只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光存储介质;闪存装置;电学的、光学的、声学的或其它形式的传播信号(例如,载波、红外信号、数字信号,等等)以及其他。
在本说明书中对“一种实现方式”,“实现方式”,“示例性实现方式”等的提及表示所描述的实现方式可以包括特定的特征、结构或特性,但不是每种实现方式都必须包括所述特定的特征、结构或特性。并且,这样的短语不一定指的是同一实现方式。此外,当结合一实现方式来描述特定的特征、结构或特性时,所主张的是:结合其他实现方式(不管是否在本文中被显式地描述)来实现这样的特征、结构或特性落入本领域技术人员的知识范围内。
下面描述的系统、装置、制品和方法包括用于从车辆的一个或多个乘员接收音频数据和可视数据的操作。可以至少部分地基于所接收的可视数据,来做出关于车辆的一个或多个乘员中的哪个与所接收的音频数据相关联的确定。在某些示例中,可以实现唇部检测和跟踪以用于车载信息娱乐(IVI)系统中的智能语音控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180075888.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:移动终端及其虚拟来电实现方法
- 下一篇:通讯装置及其语音处理方法