[发明专利]一种数字电视语音识别人机交互系统及方法无效
申请号: | 201010549953.5 | 申请日: | 2010-11-17 |
公开(公告)号: | CN102013254A | 公开(公告)日: | 2011-04-13 |
发明(设计)人: | 罗笑南;刘宁;苏嘉伟;薛凯军;陈健民 | 申请(专利权)人: | 广东中大讯通信息有限公司;东莞市聚川电子科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G06F3/16;H04N21/41;H04N21/43 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 528000 广东省广州市番禺区小谷围*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数字电视 语音 识别 人机交互 系统 方法 | ||
技术领域
本发明涉及语音处理和语义识别技术领域,以及计算机智能分析、处理并采集语音的技术,具体涉及一种数字电视语音识别人机交互系统及方法。
背景技术
语音识别技术主要是让机器通过识别和理解把语音信号变成相应的文本或者命令的技术。语音识别技术通过语音的采集输入,提取出语音的特征,再运用模型数据库的语音信息特征进行模式匹配,得到语音所包含的信息转换为文字或者命令。
根据语音识别的对象不同,在语音识别人物中大体可分为孤立词识别、关键词识别和连续语音识别三类。孤立语音识别运用在识别事先已知的词汇,关键词识别运用在连续的语音当中,但是它并不识别全部文字,而只检测已知的若干关键词的出现,连续语音识别用于识别连续的一个句子或一段话。
在现实家庭生活的数字电视混响声学环境下,噪声所造成的语音识别影响比较大。在现实家庭生活中,语音识别的限制主要在于噪声的影响和互动语音的不规范性和任意性。简单地说,由于噪声对用户的语音采样和输入造成影响,在语音识别中会发生理解错误或者用户语音的丢失。用户互动语音的不规范性和任意性在语音识别中的匹配带来的随机的不确定性,在匹配语音当中可能因为语音的不规范性和任意性和匹配错误造成语音的语语义解错误。
解决在家庭生活的数字电视混响声学环境下,在用户互动语音不规范性和任意性的情况下,关键词语音识别对这种环境下的连续语音识别有更好的应用。在用户的连续语音命令中,关键词识别能够匹配出已知的关键词所在的位置,并根据关键词的位置和组合,解释出需要执行的命令。
因此,本发明提出了一种数字电视语音识别人机交互系统及方法,目的在于在数字电视的环境下,提供先进的数字电视语音语言交互方式。
发明内容
本发明的目的在于在现实家庭生活的数字电视混响声学环境下,解决互动语音的不规范性和任意性问题,提供一种数字电视语音识别人际交互系统及方法。
本发明数字电视语音识别人际交互系统是由目标语音采集模块、语音分析模块、语义计算模块以及智能控制模块所组成。
所述目标语音采集模块是一个或者多个用于采集语音信息的麦克风或其他录入系统,实现语音信息的自动采集,以及模拟的语音信息向数字语音信息的转换,包括信号放大模块、向前滤波模块、信号采样模块,数据压缩编码模块;
所述的语音分析模块用于处理语音信息,在现实家庭生活的数字电视混响声学环境下提取出有用的语音信息,去除噪声杂音,然后得出语音信息数据,转换成为文字信息,包括噪声去除模块、特征提取模块、解码模块;
所述的语义计算模块,用于理解语音分析模块得出的文字信息的含义,通过模糊信息搜索和汉语口语理解,对语音进行特征抽取,把语音信息解释为能够执行的命令。首先根据命令信息库在文字信息中搜索所有与命令相关的文字进行语义计算,再根据命令文字的位置和顺序以及命令文字的上下文语句,判断出所需要执行的命令。语义计算模块通过对识别出来的关键文字信息进行解释,在现实家庭生活的数字电视混响声学环境中设定语音与命令对应转换关系,从而把关键文字信息转化为命令。
所述的智能控制模块,用于接收语义计算模块的命令,当命令能够正确执行时,执行所获得的命令并对用户进行声音、图像和视频的提示和交互,然后继续返回目标语音采集模块对用户进行交互。当命令无效时,向用户提示命令无效,然后返回目标语音采集模块等待用户的交互语音信息。
上述技术方案中,所述目标语音采集模块还包括数据压缩编码模块,压缩编码后能够使传输速度加快,减少系统的延时。
上述技术方案中,所述目标语音采集模块中的信号采样模块使用单片机作控制兼数据处理,也就是CPU控制读入采样数据,继而自行进行数据压缩,在速度可以达到要求的同时成本相对较低。
本发明中所述语音分析模块设置有存放汉语口语信息的数据库模块。在建立关键词时,采用音节建模,在声学模型和语言模型基础上的隐马尔可夫模型(HMM)拓扑结构,先进行分割,再对每一段进行解码。
所述语义计算模块设置有存放执行命令和提取信息策略的数据库模块,所述数据库模块设置有人工智能自学习机制,并设置有人工控制接口。在语义分析中设置人工选择歧义信息,并对数据库的信息提取策略进行人工智能学习,增强语义识别的准确性。
上述方案中,所述的语义计算模块融合了中文模糊信息检索、汉语口语理解技术,利用中文模糊信息检索找出包含命令的关键词语,再利用汉语口语理解技术对关键词语进行理解和解释,从而获得所须要实行的命令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东中大讯通信息有限公司;东莞市聚川电子科技有限公司,未经广东中大讯通信息有限公司;东莞市聚川电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010549953.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种棘轮扳手的扭力输出机构
- 下一篇:一种小麦虚拟生长机模型