[发明专利]喉音识别方法及装置在审
申请号: | 201310152543.0 | 申请日: | 2013-04-27 |
公开(公告)号: | CN104123930A | 公开(公告)日: | 2014-10-29 |
发明(设计)人: | 何秀强;张弓 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/26 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 喉音 识别 方法 装置 | ||
技术领域
本发明涉及通信技术领域,特别涉及一种喉音识别方法及装置。
背景技术
随着语音识别技术发展,人们能够通过自然语言与机器进行直接通信,提高了人机交互的效率和体验。例如,当前的智能终端上已经出现了通过语音控制实现拨打和接听电话、网上搜索、定向导航等一系列的功能。这些功能对于驾驶员,视障人群以及老年人等一些特定人群是非常适用的,为其提供了很大的便利。
现有技术中至少存在如下问题:语音识别的人机交互方式虽然提供了一定的便利,但其适用场景有很大的局限性,例如,当用户处于比较嘈杂的环境时,语音识别无法做到准确识别用户的指令;或者当用户处于公共场所需要谈论涉及隐私的内容时,现有的语音识别无法对用户的隐私进行保护;或者当用户无法发出声音时,现有的语音识别无法识别用户指令。
发明内容
提供一种喉音识别方法及装置,能够解决语音识别的人机交互方式的局限性问题,为用户提供具有更高准确性和更宽适用性的人机交互方式,提高用户体验。
第一方面,提供一种喉音识别方法,包括:
采集用户的喉音生物信号;
提取采集到的所述喉音生物信号的特征量;
根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息。
在第一种可能的实现方式中,所述提取采集到的所述喉音生物信号的特征量包括:提取采集到的所述喉音生物信号中的时域统计量和频域统计量,所述时域统计量和频域统计量包括:梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
进一步的,在所述采集用户的喉音生物信号之前,所述方法还包括:建立所述识别模型。
进一步的,在所述输出与所述喉音生物信号对应的文本信息之后,所述方法还包括:如果输出的所述文本信息与所述喉音生物信号对应错误,接收用户发出的修正指示;根据所述修正指示输出与所述喉音生物信号对应的文本信息,并对所述识别模型进行修正。
结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,在所述输出与所述喉音生物信号对应的文本信息之后,所述方法还包括:根据所述文本信息的内容执行与所述内容相对应的操作指令。
具体的,所述建立所述识别模型包括:为采集的喉音生物信号标注对应的文本信息;将所述喉音生物信号的特征量与所述文本信息进行关联;根据所述特征量与所述文本信息的关联结果建立训练样本库;使用机器学习模型对所述训练样本库进行训练,获得所述识别模型。
进一步的,所述对所述识别模型进行修正包括:使用所述根据所述修正指示输出的与所述喉音生物信号对应的文本信息替换所述识别模型中的错误文本信息。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,其中,所述机器学习模型包括:高斯混合模型GMM、隐式马尔可夫模型HMM、贝叶斯模型BM或贝叶斯高斯过程BGP。
其中,所述根据识别模型和所述特征量对采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息包括:将所述特征量与所述训练样本库中的数据进行匹配;根据匹配近似度,输出相似度最高的一个或多个文本信息的识别结果。
第二方面,提供一种喉音识别装置,包括:
采集单元,用于采集用户的喉音生物信号;
提取单元,用于提取所述采集单元采集到的所述喉音生物信号的特征量;
识别输出单元,用于根据识别模型和所述提取单元提取的所述特征量对所述采集单元采集到的所述喉音生物信号进行识别,输出与所述喉音生物信号对应的文本信息。
在第一种可能的实现方式中,所述提取单元具体用于:提取采集到的所述喉音生物信号中的时域统计量和频域统计量,所述时域统计量和频域统计量包括:梅尔频率倒谱系数MFCC、波动模式FP和谱直方图SH。
进一步的,所述装置还包括:模型建立单元,用于建立所述识别模型。
进一步的,所述装置还包括:接收单元,用于当输出的所述文本信息与所述喉音生物信号对应错误时,接收用户发出的修正指示;处理单元,用于根据所述修正指示输出与所述喉音生物信号对应的文本信息,并对所述识别模型进行修正。
结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述装置还包括:执行单元,用于根据所述文本信息的内容执行与所述内容相对应的操作指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310152543.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种RGB交叉混色显示屏
- 下一篇:基于电子墨水显示屏的电脑显示器