[发明专利]一种用于对话机器人的音意理解模型的训练方法及系统在审
申请号: | 202010276709.X | 申请日: | 2020-04-09 |
公开(公告)号: | CN111477216A | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 司马华鹏;张亚萍;汤毅平 | 申请(专利权)人: | 南京硅基智能科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L13/08;G06N3/04;G10L15/22;G10L25/30;G06F40/40;G06F16/332;G06F40/58 |
代理公司: | 江苏舜点律师事务所 32319 | 代理人: | 孙丹 |
地址: | 210012 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 对话 机器人 理解 模型 训练 方法 系统 | ||
本发明涉及音意理解领域,公开了一种用于对话机器人的音意理解模型的训练方法及系统,解决了目前音意理解模型训练时语音标注数据不足、模型泛化性能不好的问题,其技术方案要点是根据指定意图编写出训练词句;对所述训练词句的文本进行数据增强,生成若干种与所述训练词句意图相同的同义词句文本数据;对所述同义词句文本数据进行语音合成,得到相应的训练语音数据;使用所述训练语音数据训练基于深度神经网络的音意理解模型,达到了减少人工标注语音数据的工作量,提高意图识别准确率和泛化性能的效果。
技术领域
本发明涉及音意理解领域,更具体地说,它涉及一种用于对话机器人的音意理解模型的训练方法及系统。
背景技术
随着人工智能技术在学术界的快速发展以及在生活中的广泛使用,语音交互成为人与机器之间沟通交流的重要桥梁。机器人系统要与用户对话并完成特定任务,其中一个核心技术是语音意图识别技术,即让机器人系统在接收到用户语音后,能够通过语音判定用户的意图。
语音意图识别技术,是指对输入的语音识别出相应的意图或特征(这里的意图包括单意图、多意图、槽值、情感等多类问题),为后端特定的服务目标提供有效的支撑。高性能的语音意图识别技术,能够最大限度地保证人机对话系统正确理解用户的意图,采取相应的应答策略,使得机器人系统与用户之间的对话过程正确且流畅地进行。
目前传统的意图识别方法通常分成语音识别、意图识别两个独立的阶段,在第一阶段通过语音识别技术(Automatic Speech Recognition,ASR)将语音转化成文字,第二阶段通过自然语言处理技术(Natural Language Processing,NLP)从文字中抽取文本内的语义信息,识别出用户的意图。基于文本的意图识别的准确率严重依赖于语音识别技术的准确率。
现在大多数语音意图识别的应用,都是在通过语音识别获取文本之后,使用文本信息进行后续的语义加工和处理。当语音转文本信息正确率较高时,意图识别的准确率就高;当文本信息识别率较低时,大量的有用信息在识别过程中被语音识别丢弃,导致文本信息传递的用户意图也随之丢失。
所以为了避免这种严重依赖于语音识别技术的准确率的弊端,现有的技术中又提出了使用训练好的深度神经网络从输入的语音识别出相应的意图的音意理解技术;高性能的音意理解技术,能够最大限度地保证人机对话系统正确理解用户的意图,采取相应的交互策略,使得机器人系统与用户之间的对话过程正确且流畅地进行。
但是训练深度神经网络需要大量标注了意图的语音数据来训练模型,而人工对语音数据进行标注的人力成本和时间成本是十分昂贵的,这是音意理解模型落地的一个很大的门槛。在语音意图理解中,同一个类别中需要很多数据进行训练,而当积累的语音和文本数据还不够多时,通过人工编写,可能会缓解数据的压力,但耗费太多的人力,而且数据覆盖的范围可能并不全。在标注数据不足的情况下,模型对意图识别的准确率和泛化就受到很大限制。数据覆盖不全面,导致在实际对话过程中,同一个意思用户换一种不同的表达方式,模型就无法识别了;模型只能识别训练数据集覆盖的句子类型,这就是模型的泛化问题。除了数据不足问题,训练音意理解模型常遇到的另一个问题是数据不均衡,即有的意图类别数据特别多,有的意图类别数据特别少,这种数据不均衡问题也会很大程度上影响模型训练的效果。
发明内容
本发明的目的是提供一种用于对话机器人的音意理解模型的训练方法及系统,达到减少人工标注语音数据的工作量,提高意图识别准确率和泛化性能的效果。
本发明的上述技术目的是通过以下技术方案得以实现的:一种用于对话机器人的音意理解模型的训练方法,包括以下步骤:
S1、根据指定意图编写出训练词句;
S2、对所述训练词句的文本进行数据增强,生成若干种与所述训练词句意图相同的同义词句文本数据;
S3、对所述同义词句文本数据进行语音合成,得到相应的训练语音数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京硅基智能科技有限公司,未经南京硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010276709.X/2.html,转载请声明来源钻瓜专利网。