[发明专利]智能问答数据处理系统有效

专利信息
申请号: 202110771766.X 申请日: 2021-07-08
公开(公告)号: CN113220864B 公开(公告)日: 2021-10-01
发明(设计)人: 籍焱;薄满辉;唐红武;王殿胜;卞磊;谭智隆;张丽颖 申请(专利权)人: 中航信移动科技有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/35
代理公司: 北京锺维联合知识产权代理有限公司 11579 代理人: 丁慧玲
地址: 100029 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 智能 问答 数据处理系统
【权利要求书】:

1.一种智能问答数据处理系统,其特征在于:

包括预设数据库,预设模型库{第一模型,第二模型,…第G模型}、处理器和存储有计算机程序的存储器,G为预设模型库中模型总数量,所述预设数据库包括FAQ库和基于用户query实时通过预设查询接口获取的问答信息,当所述处理器执行所述计算机程序时,实现以下步骤:

步骤S1、获取用户query,并对所述用户query进行预处理,得到用户query的分词特征;

步骤S2、调用第i模型从所述数据库中召回与所述用户query相似度排在前Ni的第i预选query集合和相似度排在第Ni至第Mi的第i候选query集合,所述第i预选query集合包括第i预选query和对应相似度,所述第i候选query包括第i候选query和对应相似度, 所述第i模型表示所述预设模型库中第i个模型,i的取值为1到G-1;

步骤S3、调用第G模型从所有第i候选query集合中获取与所述用户query存在相同意图的第G预选query集合,所述第G预选query集合包括第S预选query、对应的相似度和相同意图对应的概率;

所述步骤S3包括:

步骤S31、基于用户query的分词特征转换为第G模型对应的输入特征,得到用户query的意图标签和每一意图标签的概率;

步骤S32、将所有第i候选query集合中每一候选query转换为第G模型对应的输入特征,得到候选query的意图标签和每一意图标签的概率;

步骤S33、将每一候选query的意图标签与所述用户query的意图标签进行对比,若存在相同意图标签,则将该候选query确定为第G预选query,并将该候选query、对应的相似度和相同意图对应的概率存储至所述第G预选query集合中;

步骤S4、基于所有第i预选query集合、第G预选query集合和每一模型对应的预设权重确定目标query,基于所述目标query生成回答信息。

2.根据权利要求1所述的系统,其特征在于,

还包括第一样本训练集合、第二样本训练集合和意图标签库,G取值为4,所述第一模型用于执行BM25算法;第二模型为将BERT模型的倒数第二层作为输出的模型;第三模型为基于预设的第一样本训练集合对BERT模型进行调整训练后,将倒数第二层作为输出的模型;第四模型为基于预设的意图标签库和第二样本训练集训练得到的文本多标签分类模型;

当所述处理器执行所述计算机程序时,还实现以下步骤:

步骤S10、构建第一样本query集合,相似度大于预设相似度阈值的样本query标注有相同的标签;

步骤S20、从所述第一样本query集合中选取预设第一数量的具有相同标签的样本query对,作为第一正样本集合;

步骤S30、从所述样本query集合中随机抽取预设第二数量的具有不同标签的样本query对,加入第一负样本集合中;

步骤S40、基于BM25算法从所述样本query集合中召回相似度位于前R的query,从所述前R的query中抽取预设第三数量的具有不同标签的样本query对,加入第一负样本集合中,所述第二数量和第三数量之和与所述第一数量的比值大于预设比例值,所述第一正样本集合和所述第一负样本集合构成所述第一样本训练集合;

步骤S50、将BERT模型倒数第一层作为输出,将第一正样本的样本query对基于预设的间隔符进行拼接,生成第一正样本输入数据,第一正样本的实际输出值设置为1,将第一负样本的样本query对基于预设的间隔符进行拼接,生成第一负样本输入数据,第一负样本的实际输出值设置为0,将第一正样本输入数据和第二负样本数据分别输入所述BERT模型中,得到输出预测值,基于样本输出预测值和实际输出值调整所述BERT模型,直至达到预设的模型精度需求;

步骤S60、将达到预设的模型精度需求的BERT模型的倒数第二层作为输出,得到所述第三模型;

当所述处理器执行所述计算机程序时,还实现以下步骤:

步骤S100、构建第二样本query集合,所述第二样本query集合中存储有每一第二样本输入特征和意图标签,所述第二样本输入特征包括字嵌入、位置嵌入和分割嵌入;

步骤S200、将所述第二样本输入特征输入BERT模型中,输出维度为批量大小,序列长度,隐向量大小的三维输出向量;

步骤S300、将所述三维输出向量输入到TextCNN模型,得到维度为批量大小,len(卷积核大小)*卷积核个数的中间输出向量,其中,Len函数表示得到字符串的长度;

步骤S400、将所述中间输出向量输入到全连接层,将所述中间输出向量映射到意图标签库的所有标签上,训练得到文本多标签分类模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中航信移动科技有限公司,未经中航信移动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110771766.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top