[发明专利]面向任务式对话系统意图识别的语料库生成方法和装置在审
申请号: | 201910163098.5 | 申请日: | 2019-03-05 |
公开(公告)号: | CN111666384A | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 田春霖;王翔 | 申请(专利权)人: | 京东数字科技控股有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 杜志敏;宋志强 |
地址: | 100176 北京市经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 任务 对话 系统 意图 识别 语料库 生成 方法 装置 | ||
1.一种面向任务式对话系统意图识别的语料库生成方法,其特征在于,该方法包括:
基于预设规则生成第一语料库;
删除第一语料库中重复的语料,并记为第二语料库;
通过预设的神经网络模型对第二语料库,以及获取的第三语料库进行语料的句嵌入,获得第二语料库对应的第一嵌入矩阵,以及第三语料库对应的第二嵌入矩阵;
计算第一嵌入矩阵中的每个向量与第二嵌入矩阵中的每个向量的相关度;
将所有相关度大于预设阈值的向量对应的第三语料库中的语料增加到第二语料库中,将当前第二语料库作为面向任务式对话系统意图识别的语料库;
其中,第三语料库为人人对话的语料库,且与第一语料库为同一应用领域的语料库。
2.根据权利要求1所述的方法,其特征在于,所述第一语料库中的每条语料对应一个标签;
所述将所述相关度大于预设阈值的向量对应的第三语料库中的语料增加到第二语料库中时,所述方法进一步包括:
为该条语料分配相关度大于预设值的向量对应的第二语料库中的语料的标签。
3.根据权利要求1所述的方法,其特征在于,所述基于预设规则生成第一语料库,包括:
获取语料模板以及对应的标签并存储;其中,所述语料模板为基于任务描述和专家归纳生成的,且所述语料模板符合预设规则;
对存储的语料模板进行语法检查;
若任一语料模板存在语法错误,则对该语料模板进行语法修改,直到该语料模板不存在语法错误;
使用所有无语法错误的语料模板生成语料,以及每条语料的标签,作为第一语料库。
4.根据权利要求3所述的方法,其特征在于,所述预设规则为语料模板将要生成的语料符合如下四种语法单元的要求:
语元、或者、替换、存在;
其中,语元,是组成语料模板的单位。
或者,表示语元内部的元素存在或的关系;
替换,表示此处的元素由预设元素替换;
存在,表示此语元存在,或不存在。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述删除第一语料库中重复的语料,包括:
针对每个标签对应的第一语料与第二语料使用莱文斯坦距离算法确定两条语料的差异程度值,当差异程度值小于预设程度值时,将第一语料、第二语料提示给工作人员;
接收到工作人员根据提示反馈的删除任一语料的命令时,将第一语料库中对应的语料删除。
6.一种面向任务式对话系统意图识别的语料库生成装置,其特征在于,该装置包括:生成单元、删除单元和扩充单元;
所述生成单元,用于基于预设规则生成第一语料库;
所述删除单元,用于删除第一语料库中重复的语料,记为第二语料库;
所述扩充单元,用于通过预设的神经网络模型对所述删除单元获得的第二语料库,以及获取的第三语料库进行语料的句嵌入,获得第二语料库对应的第一嵌入矩阵,以及第三语料库对应的第二嵌入矩阵;计算第一嵌入矩阵中的每个向量与第二嵌入矩阵中的每个向量的相关度;将所有相关度大于预设阈值的向量对应的第三语料库中的语料增加到第二语料库中,将当前第二语料库作为面向任务式对话系统意图识别的语料库;其中,第三语料库为人人对话的语料库,且与第一语料库为同一应用领域的语料库。
7.根据权利要求6所述的装置,其特征在于,
所述扩充单元,具体用于将所述相关度大于预设阈值的向量对应的第三语料库中的语料增加到第二语料库中时,为该条语料分配相关度大于预设值的向量对应的第二语料库中的语料的标签;其中,所述第一语料库中的每条语料对应一个标签。
8.根据权利要求6所述的装置,其特征在于,
所述生成单元,具体用于获取语料模板以及对应的标签并存储;其中,所述语料模板为基于任务描述和专家归纳生成的,且所述语料模板符合预设规则;对存储的语料模板进行语法检查;若任一语料模板存在语法错误,则对该语料模板进行语法修改,直到该语料模板不存在语法错误;使用所有无语法错误的语料模板生成语料,以及每条语料的标签,作为第一语料库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股有限公司,未经京东数字科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910163098.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种容器集群磁盘管理方法和装置
- 下一篇:一种双面背接触太阳能电池组件