[发明专利]面向任务式对话系统意图识别的语料库生成方法和装置在审
申请号: | 201910163098.5 | 申请日: | 2019-03-05 |
公开(公告)号: | CN111666384A | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 田春霖;王翔 | 申请(专利权)人: | 京东数字科技控股有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 杜志敏;宋志强 |
地址: | 100176 北京市经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 任务 对话 系统 意图 识别 语料库 生成 方法 装置 | ||
本申请提供了一种面向任务式对话系统意图识别的语料库生成方法和装置,该方法包括:基于预设规则生成第一语料库;删除第一语料库中重复的语料,记为第二语料库;通过预设的神经网络模型对第二语料库,以及获取的第三语料库进行语料的句嵌入,获得第二语料库对应的第一嵌入矩阵,以及第三语料库对应的第二嵌入矩阵;计算第一嵌入矩阵中的每个向量与第二嵌入矩阵中的每个向量的相关度;将所有相关度大于预设阈值的向量对应的第三语料库中的语料增加到第二语料库中,将当前第二语料库作为面向任务式对话系统意图识别的语料库。该方法能够快速生成多样性人机对话的语料库。
技术领域
本发明涉及信息处理技术领域,特别涉及一种面向任务式对话系统意图识别的语料库生成方法和装置。
背景技术
意图识别是面向任务的对话系统的重要组成部分,意图识别往往采用基于机器学习的方法。基于机器学习的意图识别需要语料库作为训练模型的支撑。为了更有效、更快地构建面向意图识别的语料库,有必要建立一个高效的面向任务式对话系统意图识别的语料库生成模型,快速地生成语料库,满足系统训练的要求。
现有的语料库生成模型主要分为两部分:语料获取和语料处理。语料获取主要采用爬虫技术、自动语音识别技术、光学字符识别技术文本录入等方法。语料处理根据任务和数据不同需要做数据清洗、数据打标、数据存储等。
现有的面向任务式对话系统意图识别的语料库生成方法,一般需要大量时间人工清洗数据和标注数据。因此,存在着效率低下,无法满足快速上线要求的问题。
传统的面向任务式对话系统意图识别的语料库生成方法,往往需要通过专家归纳意图标签,而归纳标签的过程中无法避免对话术设计和归纳标签不一致的矛盾。
发明内容
有鉴于此,本申请提供一种面向任务式对话系统意图识别的语料库生成方法,能够快速生成多样性人机对话的语料库。
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中提供了一种面向任务式对话系统意图识别的语料库生成方法,该方法包括:
基于预设规则生成第一语料库;
删除第一语料库中重复的语料,并记为第二语料库;
通过预设的神经网络模型对第二语料库,以及获取的第三语料库进行语料的句嵌入,获得第二语料库对应的第一嵌入矩阵,以及第三语料库对应的第二嵌入矩阵;
计算第一嵌入矩阵中的每个向量与第二嵌入矩阵中的每个向量的相关度;
将所有相关度大于预设阈值的向量对应的第三语料库中的语料增加到第二语料库中,将当前第二语料库作为面向任务式对话系统意图识别的语料库;
其中,第三语料库为人人对话的语料库,且与第一语料库为同一应用领域的语料库。
在另一个实施例中提供了一种面向任务式对话系统意图识别的语料库生成装置,该装置包括:生成单元、删除单元和扩充单元;
所述生成单元,用于基于预设规则生成第一语料库;
所述删除单元,用于删除第一语料库中重复的语料,记为第二语料库;
所述扩充单元,用于通过预设的神经网络模型对所述删除单元获得的第二语料库,以及获取的第三语料库进行语料的句嵌入,获得第二语料库对应的第一嵌入矩阵,以及第三语料库对应的第二嵌入矩阵;计算第一嵌入矩阵中的每个向量与第二嵌入矩阵中的每个向量的相关度;将所有相关度大于预设阈值的向量对应的第三语料库中的语料增加到第二语料库中,将当前第二语料库作为面向任务式对话系统意图识别的语料库;其中,第三语料库为人人对话的语料库,且与第一语料库为同一应用领域的语料库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股有限公司,未经京东数字科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910163098.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种容器集群磁盘管理方法和装置
- 下一篇:一种双面背接触太阳能电池组件