[发明专利]一种智能知识库扩充方法、装置、电子设备及存储介质在审
申请号: | 202111501206.9 | 申请日: | 2021-12-09 |
公开(公告)号: | CN114328861A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 李渊;刘设伟 | 申请(专利权)人: | 泰康保险集团股份有限公司;泰康在线财产保险股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06K9/62 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 金银花 |
地址: | 100031 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 知识库 扩充 方法 装置 电子设备 存储 介质 | ||
1.一种智能知识库扩充方法,其特征在于,所述方法包括:
获取用户咨询文本前缀;其中,所述用户咨询文本前缀为用户咨询文本中的第一个字或以所述第一个字为起点的连续多个字的组合;
将所述用户咨询文本前缀输入训练好的文本生成模型,进行文本生成,得到常见咨询问题候选集;其中,所述文本生成模型是通过对GPT-2模型进行训练得到的,所述GPT-2模型的嵌入层参数包括伪提示文本对应的嵌入层参数和用户咨询问题文本对应的嵌入层参数,所述伪提示文本为没有实际任务的文本,用于获得文本生成过程中的提示信息,在所述GPT-2模型训练的过程中,所述用户咨询问题文本对应的嵌入层参数被屏蔽;
将所述常见咨询问题候选集中的文本与智能知识库中问题的文本进行相似度比对,得到多个相似度;
将所述常见咨询问题候选集中相似度高于第一预设阈值的文本添加到所述智能知识库。
2.如权利要求1所述的方法,其特征在于,所述文本生成模型通过如下方式获得:
获取预设领域的用户咨询问题文本;
将伪提示文本和所述用户咨询问题文本输入所述GPT-2模型的嵌入层进行编码,得到所述伪提示文本对应的提示编码信息和所述用户咨询问题文本对应的文本编码信息,以使所述GPT-2模型基于所述提示编码信息和所述文本编码信息生成预测文本;其中,所述提示编码信息用于对待生成的字进行提示;
基于所述预测文本,通过损失函数对所述GPT-2模型的嵌入层中所述伪提示文本对应的嵌入层参数进行优化,直到所述GPT-2模型生成的预测文本与所述用户咨询问题文本的相似度大于第二预设阈值时,停止对所述伪提示文本对应的嵌入层参数进行优化,得到所述文本生成模型。
3.如权利要求2所述的方法,其特征在于,所述GPT-2模型基于所述提示编码信息和所述文本编码信息生成预测文本,包括:
基于所述提示编码信息和所述文本编码信息按照标准语法顺序依次生成每个字;其中,新的字基于已生成的字序列生成,所述新的字生成之后,将所述新的字添加到所述已生成的字序列后面。
4.如权利要求2所述的方法,其特征在于,所述将伪提示文本和所述用户咨询问题文本输入所述GPT-2模型的嵌入层进行编码,包括:
对所述用户咨询问题文本进行预处理,得到目标文本;其中,所述预处理包括删除包含敏感词汇的文本、不完整文本、图片网址、特殊字符,将繁写转换为简写、英文大写转换为小写,所述敏感词汇为预设的敏感数据库中包含的词汇,所述不完整文本为文本语法与标准语法不同的文本;
将所述伪提示文本和所述目标文本输入所述GPT-2模型的嵌入层进行编码。
5.如权利要求1所述的方法,其特征在于,所述获取用户咨询文本前缀,包括:
爬取用户咨询文本数据;
对所述用户咨询文本数据中的文本前缀进行统计;
确定每个文本前缀出现的次数;
按照出现次数对文本前缀进行优先级排序;其中,出现次数最多的文本前缀为优先级最高的文本前缀;
根据所述优先级顺序获取进行文本生成的用户咨询文本前缀。
6.如权利要求1所述的方法,其特征在于,所述将所述常见咨询问题候选集中的文本与智能知识库中问题的文本进行相似度比对,包括:
通过束搜索算法从所述常见问题候选集中选取预设数量的常见咨询问题;
将所述预设数量的常见咨询问题文本与所述智能知识库中问题的文本进行相似度比对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康在线财产保险股份有限公司,未经泰康保险集团股份有限公司;泰康在线财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111501206.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:利用青蒿提取精油及其提取工艺
- 下一篇:一种车辆设备的供热方法以及系统