[发明专利]语料生成方法、装置、计算机设备及存储介质在审
申请号: | 202110575555.9 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113157897A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 谢忠玉 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/335;G06F40/186;G06F40/194;G06F40/247;G06F40/253;G06F40/279;G06F40/30 |
代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 周雷 |
地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 生成 方法 装置 计算机 设备 存储 介质 | ||
1.一种语料生成方法,其特征在于,包括:
获取目标问答领域对应的高频提问词以及待挖掘文本;其中,所述高频提问词用于指示所述目标问答领域中高频问题对应的主题词;
根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句;
对所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板;
将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料;其中,所述历史提问词为所述历史提问模板对应的主题词;
将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料。
2.如权利要求1所述语料生成方法,其特征在于,在所述将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料之后,所述语料生成方法还包括:
采用预训练的语言模型对所述提问语料进行语法语义检查,得到所述提问语料的得分值;
当所述得分值不小于预设分值阈值,保留所述提问语料;
当所述得分值小于所述预设分值阈值,去除所述提问语料;
所述将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料,包括:
将所述保留的提问语料与所述高频提问词对应的目标应答语句作为所述目标问答语料。
3.如权利要求2所述语料生成方法,其特征在于,在所述获取目标问答领域对应的高频提问词以及待挖掘文本之后,所述语料生成方法还包括:
对所述高频提问词进行同义词扩充,获取所述高频提问词对应的多个目标同义词;
所述将所述保留的提问语料与所述高频提问词对应的目标应答语句作为所述目标问答语料,包括:
根据每一所述目标同义词对所述保留的提问语料中的高频提问词进行替换,得到所述高频提问词对应的多个目标提问语料;
将每一所述目标提问语料与所述高频提问词对应的目标应答语句作为所述目标问答语料。
4.如权利要求1所述语料生成方法,其特征在于,所述根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句,包括:
获取所述目标问答领域对应的语句提取模板;
根据所述语句提取模板,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句。
5.如权利要求3所述语料生成方法,其特征在于,所述对所述高频提问词进行同义词扩充,获取所述高频提问词对应的多个目标同义词,包括:
将所述高频提问词输入到近似度函数中进行处理,获取与所述高频提问词相对应的多个候选同义词以及与所述候选同义词相对应的第一近似度;
基于所述第一近似度,从多个所述候选同义词中选取所述高频提问词对应的多个目标同义词。
6.如权利要求3所述语料生成方法,其特征在于,在所述根据每一所述目标同义词对所述保留的提问语料中的高频提问词进行替换,得到所述高频提问词对应的多个目标提问语料之后,所述语料生成方法还包括:
对所述目标提问语料进行分割,去除所述目标提问语料中的高频提问词,得到中间语句;
对所述中间语句进行分词处理,得到多个待替换词次;
将所述待替换词次输入到近似度函数中进行处理,获取与所述待替换词次相对应的多个原始近义词以及与所述原始近义词相对应的第二近似度;
基于所述第二近似度,从所述多个原始近义词中选取所述待替换词次对应的目标近义词;
基于所述目标近义词与所述高频提问词,对所述目标提问语料进行重构,以更新所述目标提问语料。
7.如权利要求1所述语料生成方法,其特征在于,所述对所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板,包括:
获取所述高频提问词与每一所述历史提问语句的文本相似度;
对获取的多个文本相似度进行降序排列,获取排在前N位的所述历史提问语句为所述历史提问模板;或者,
基于获取多个所述文本相似度,将所述文本相似度大于预设文本相似度阈值的所述历史提问语句为所述历史提问模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110575555.9/1.html,转载请声明来源钻瓜专利网。