[发明专利]一种智能知识库扩充方法、装置、电子设备及存储介质在审

申请号：	202111501206.9	申请日：	2021-12-09
公开（公告）号：	CN114328861A	公开（公告）日：	2022-04-12
发明（设计）人：	李渊;刘设伟	申请（专利权）人：	泰康保险集团股份有限公司;泰康在线财产保险股份有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06K9/62
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	金银花
地址：	100031 北京市西***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种智能知识库扩充方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种智能知识库扩充方法，其特征在于，所述方法包括：

获取用户咨询文本前缀；其中，所述用户咨询文本前缀为用户咨询文本中的第一个字或以所述第一个字为起点的连续多个字的组合；

将所述用户咨询文本前缀输入训练好的文本生成模型，进行文本生成，得到常见咨询问题候选集；其中，所述文本生成模型是通过对GPT-2模型进行训练得到的，所述GPT-2模型的嵌入层参数包括伪提示文本对应的嵌入层参数和用户咨询问题文本对应的嵌入层参数，所述伪提示文本为没有实际任务的文本，用于获得文本生成过程中的提示信息，在所述GPT-2模型训练的过程中，所述用户咨询问题文本对应的嵌入层参数被屏蔽；

将所述常见咨询问题候选集中的文本与智能知识库中问题的文本进行相似度比对，得到多个相似度；

将所述常见咨询问题候选集中相似度高于第一预设阈值的文本添加到所述智能知识库。

2.如权利要求1所述的方法，其特征在于，所述文本生成模型通过如下方式获得：

获取预设领域的用户咨询问题文本；

将伪提示文本和所述用户咨询问题文本输入所述GPT-2模型的嵌入层进行编码，得到所述伪提示文本对应的提示编码信息和所述用户咨询问题文本对应的文本编码信息，以使所述GPT-2模型基于所述提示编码信息和所述文本编码信息生成预测文本；其中，所述提示编码信息用于对待生成的字进行提示；

基于所述预测文本，通过损失函数对所述GPT-2模型的嵌入层中所述伪提示文本对应的嵌入层参数进行优化，直到所述GPT-2模型生成的预测文本与所述用户咨询问题文本的相似度大于第二预设阈值时，停止对所述伪提示文本对应的嵌入层参数进行优化，得到所述文本生成模型。

3.如权利要求2所述的方法，其特征在于，所述GPT-2模型基于所述提示编码信息和所述文本编码信息生成预测文本，包括：

基于所述提示编码信息和所述文本编码信息按照标准语法顺序依次生成每个字；其中，新的字基于已生成的字序列生成，所述新的字生成之后，将所述新的字添加到所述已生成的字序列后面。

4.如权利要求2所述的方法，其特征在于，所述将伪提示文本和所述用户咨询问题文本输入所述GPT-2模型的嵌入层进行编码，包括：

对所述用户咨询问题文本进行预处理，得到目标文本；其中，所述预处理包括删除包含敏感词汇的文本、不完整文本、图片网址、特殊字符，将繁写转换为简写、英文大写转换为小写，所述敏感词汇为预设的敏感数据库中包含的词汇，所述不完整文本为文本语法与标准语法不同的文本；

将所述伪提示文本和所述目标文本输入所述GPT-2模型的嵌入层进行编码。

5.如权利要求1所述的方法，其特征在于，所述获取用户咨询文本前缀，包括：