[发明专利]一种人机交互方法与终端、计算机可读存储介质在审

申请号：	202010016725.5	申请日：	2020-01-08
公开（公告）号：	CN111833865A	公开（公告）日：	2020-10-27
发明（设计）人：	孙建伟;赵帅江	申请（专利权）人：	北京嘀嘀无限科技发展有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/02;G10L15/06;G10L15/08
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	张子青;刘芳
地址：	100193 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种人机交互方法终端计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种人机交互方法与终端、计算机可读存储介质。该方法包括：采集当前的语音数据，然后，提取所述语音数据中的语音特征，从而，利用训练好的多语种语音分类器处理所述语音特征，得到分类识别结果，所述多语种语音分类器用于判断语音数据中是否包含多语种指定话术中的任意一种所述指定话术，进而，当所述分类识别结果指示所述语音数据中包含所述指定话术时，输出针对所述指定话术的响应话术。本发明所提供的技术方案，能够解决在多语种语音交互场景中维护资源量较大且语音识别效率较低的问题。

技术领域

本发明涉及计算机技术，尤其涉及一种人机交互方法与终端、计算机可读存储介质。

背景技术

随着计算机技术的发展，用户可以通过语音来控制终端执行动作或实现某些功能。示例性的，在一种语音交互场景中，可以采集用户的语音数据，然后，利用声学模型处理语音数据，以识别出该语音数据是否为指定的语音指令，进而，当其为指定的语音指令时，针对该语音指令进行响应。

现有技术中，用于识别语音指令的声学模型一般为单语种模型。单语种模型可用于实现对单一语种的语音识别，针对其他语种的识别准确率较低，甚至无法识别。而且，受到现有的声学模型结构的限制，很难实对多语种数据进行统一的建模处理，也难以保障多语种声学模型的识别准确率以及鲁棒性。

基于此，在多语种环境中，需要为每种语种分别建立不同的(单语种)声学模型，这就需要分别维护各语种资源，也对语音识别效率产生不利影响，影响语音交互效果。

发明内容

本发明提供一种人机交互方法与终端、计算机可读存储介质，用以解决在多语种语音交互场景中维护资源量较大且语音识别效率较低的问题。

第一方面，本发明提供一种人机交互方法，包括：

采集当前的语音数据；

提取所述语音数据中的语音特征；

利用训练好的多语种语音分类器处理所述语音特征，得到分类识别结果，所述多语种语音分类器用于判断语音数据中是否包含多语种指定话术中的任意一种所述指定话术；