[发明专利]智能语音交互方法及系统有效
申请号: | 201610615976.9 | 申请日: | 2016-07-29 |
公开(公告)号: | CN107665708B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 陈凌辉;吴奎;黄鑫;陈志刚;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/06;G10L15/02;G06F40/30 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 赵景平;宋少华 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 语音 交互 方法 系统 | ||
本发明公开了一种智能语音交互方法及系统,该方法包括:接收语音数据;对所述语音数据进行语音识别,得到语音识别结果;根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断,得到模型输出结果;根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。利用本发明,可减少噪声语音数据对人机交互的影响,降低人机交互系统的误响应。
技术领域
本发明涉及语音信号处理、人机交互领域,具体涉及一种智能语音交互方法及系统。
背景技术
近年来,随着人工智能技术的迅猛发展,语音识别、语义理解、语音合成等技术也随之进入了实用水平。人们越来越来渴望可以自然便捷地与机器进行交流,从传统的一问一答的语音交互系统到目前较流行的多轮问答的语音交互系统,人机交互越来越接近人人交互,在用户体验上有了很大的提升。然而由于实际的交互环境复杂多变,经常会有各种噪声语音的输入,引起交互系统的误响应。为了防止这种情况的出现,现有交互系统一般采用唤醒词机制,即在接收语音数据后,先进行唤醒词识别,识别到唤醒词后,机器被唤醒,然后再进行后续交互。
然而,由于在实际语音交互时,交互环境经常是复杂多变的,现有系统并不能防止交互过程中噪声的输入;在语音交互过程中,机器接收的语音数据经常会存在噪声,如背景噪声、机器自身的播报声、非交互语音(如人人交谈的语音)等,都会对交互过程产生影响,干扰交互系统,导致机器的误响应,尤其是人人交谈的语音,现有系统无法判断当前人人交谈的语音数据是否是人机交互语音数据,从而在很大程度上引起机器的误响应,增加了系统负载,降低了用户体验。
发明内容
本发明提供一种智能语音交互方法及系统,以减少噪声语音数据对人机交互的影响,降低人机交互系统的误响应。
为此,本发明提供如下技术方案:
一种智能语音交互方法,包括:
接收语音数据;
对所述语音数据进行语音识别,得到语音识别结果;
根据预先构建的基于语义层面的拒识判断模型对所述语音识别结果进行拒识判断,得到模型输出结果;
根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;
如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。
优选地,所述方法还包括:按以下方式构建拒识判断模型:
确定拒识判断模型拓扑结构;
收集大量人机交互语音数据及其对应的语音识别文本;
对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;
提取所述分词词串中各词的语义特征,并标注拒识判断结果;
基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征,训练得到拒识判断模型。
优选地,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;
所述输入层的输入包括:语音识别文本包含每个词的语义特征;
所述输出层的输出包括:拒识判断结果。
优选地,所述输入层的输入还包括:语音识别文本的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。
优选地,所述语义特征包括以下任意一项或多项:词向量、词置信度、词时长、词TF-IDF得分、词有效语音得分均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610615976.9/2.html,转载请声明来源钻瓜专利网。