[发明专利]语料生成方法、装置、设备及计算机可读存储介质有效
申请号: | 202011505409.0 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112597748B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 陆海鹏 | 申请(专利权)人: | 深圳赛安特技术服务有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/205;G06F40/247 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 袁文婷;张娓娓 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 生成 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种语料生成方法,其特征在于,所述方法包括:
根据意图语料生成指令,获取与所述意图语料生成指令相对应的意图语料模板;
获取所述意图语料模板中的词槽字段,并对所述词槽字段的位置进行排列组合,得到带有空白槽位的初级语料语句;
通过预设同义词扩展模型,对所述初级语料语句中的词槽字段进行同义词扩展,得到带有空白槽位的扩展初级语料语句;
根据所述扩展初级语料语句的空白槽位所需填入词的词性,从预设噪声词词库中选取相应词性的噪声词填入所述扩展初级语料语句的空白槽位内,生成意图语料;其包括:
从所述扩展初级语料语句中获取空白槽位的位置;
根据所述空白槽位的位置以及预设词性鉴定模板,确定所述空白槽位所需填入词的词性;
根据所述空白槽位所需填入词的词性,从预设噪声词词库中选取相应词性的噪声词填入所述扩展初级语料语句的空白槽位内,生成意图语料。
2.根据权利要求1所述的语料生成方法,其特征在于,所述根据意图语料生成指令,获取与所述意图语料生成指令相对应的意图语料模板包括:
获取意图语料生成指令,其中,所述意图语料生成指令包括意图信息;
从预设意图列表中选取与所述意图信息相对应的意图语料模板;其中,所述预设意图列表包括意图信息和与所述意图信息相对应的意图语料模板。
3.根据权利要求1所述的语料生成方法,其特征在于,所述获取所述意图语料模板中的词槽字段,并对所述词槽字段的位置进行排列组合,得到带有空白槽位的初级语料语句包括:
从所述意图语料模板中提取词槽字段,生成词槽列表;其中,所述意图语料模板包括与意图信息相匹配的词槽字段;
对所述词槽列表中的词槽字段进行排列组合,将排列组合后带有空白槽位的词槽列表作为初级语料语句。
4.根据权利要求1所述的语料生成方法,其特征在于,所述预设同义词扩展模型存储于区块链中,所述预设同义词扩展模型包括:
获取所述初级语料语句的输入层、从预设词典库中获取与所述初级语料语句中的词槽字段属于同类别的同类词的同类词获取层、对所述初级语料语句中的词槽字段和所述同类词分别进行向量化处理的词向量处理层、通过相似度计算公式对所述词向量处理层得到的词槽字段向量和同类词向量进行相似度计算的相似度计算层、将与所述相似度计算层得到的计算结果大于预设相似度阈值的同类词向量所对应的同类词作为扩展词语的词语扩展层、将所述扩展词语替换相对应的词槽字段以形成同义初级语料语句的扩展替换层和将所述初级语料语句与所述同义初级语料语句一同作为扩展初级语料语句输出的输出层。
5.根据权利要求1所述的语料生成方法,其特征在于,在所述根据所述扩展初级语料语句的空白槽位所需填入词的词性,从预设噪声词词库中选取相应词性的噪声词填入所述扩展初级语料语句的空白槽位内,生成意图语料之后,还包括:
将所述意图语料作为初级检索语料输入预设搜索引擎,获取所述预设搜索引擎得到的检索标题语句;
将所述检索标题语句与所述意图语料进行相似度计算,选取相似度计算结果大于预设语句相似度阈值的检索标题语句,作为增加意图语料;
按照预设检索次数阈值,将每次得到的增加意图语料作为新检索语料输入预设搜索引擎,获取所述预设搜索引擎得到的新检索标题语句;
将所述新检索标题语句与所述增加意图语料进行相似度计算,选取相似度计算结果大于所述预设语句相似度阈值的新检索标题语句,作为新增加意图语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳赛安特技术服务有限公司,未经深圳赛安特技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011505409.0/1.html,转载请声明来源钻瓜专利网。