[发明专利]一种基于深度学习的FAQ检索式问答构建方法及系统在审
申请号: | 202011584447.X | 申请日: | 2020-12-28 |
公开(公告)号: | CN112559723A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 孙永毫;蒙碧军 | 申请(专利权)人: | 广东国粒教育技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/335;G06F16/35;G06F40/205;G06F40/35;G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 卢泽明 |
地址: | 519000 广东省珠海市横琴新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 faq 检索 问答 构建 方法 系统 | ||
1.一种基于深度学习的FAQ检索式问答构建方法,其特征在于,包括以下步骤:
步骤S1,获取用户问题,并整理与所述用户问题相关的文档内容;
步骤S2,构建训练集和测试集;
步骤S3,在测试集和训练集的基础上,增强数据;
步骤S4,模型建立及迭代优化;
步骤S5,模型建立完之后,设置问答系统,用户任意问问题,系统会根据神经网络模型预测该问题属于哪一类,进而给出相应的答案。
2.根据权利要求1所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S1中,对于有大量问答记录的场景,问答记录里面包括很多高频的知识点,所述高频的知识点包括问题和答案;
所述高频的知识点对应的问法通常并不唯一,即知识库的结构为一个问题集合对应同一个答案,其针对FAQ数据有以下三种数据类型:
(1)、标准问q:FAQ中问题的标准用户query;
(2)、答案A:FAQ中标准问对应的标准回答;
(3)、相似问q1,q2…:跟标准问语义相似可用同一答案回答的query;
其中,标准问q、对应答案A、以及该标准问q对应的所有相似问q1,q2,…,一起组成一个知识点。
3.根据权利要求2所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S1中,需要建立一个更加合理的知识库,要求每个知识点只包含一个意图,且知识点之间没有交叉、歧义、冗余容易造成混淆的因素;
而且,所述知识库的标注为每个FAQ积累一定数量的有代表性的相似问。
4.根据权利要求2所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S1的后期持续维护包括:新FAQ发现,以及原FAQ的合并、拆分和纠正。
5.根据权利要求1所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S2中,具体包括以下步骤:
测试集构造:将相似问中的第一条相似问q1作为query,从FAQ知识库的所有知识点中通过Lucene召回30个知识点作为候选集;
训练集构造:包含两部分,一部分是正例的构造,另一部分是负例的构造,所述正例的构造和所述负例的构造中数据的构造方式将直接影响到最终的效果;
在正例的构造中,因为每个知识点的第一个相似问是作为测试集中出现的,所以在构造训练集的时候排除掉所有知识点中的第一条相似问q1;这样,有多于2个相似问的知识点、还有多于的其他相似问可以用来构造训练集;将这些识点中的标准问和从相似问的第二条开始(即[q2,q3,…,qn])可以按照不同方式构造出正例和负例。
6.根据权利要求5所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S2中,在训练集正例的构造中,去除所有知识点中的第一条相似问q1,其他相似问及标准问两两组合成正例pair对;对于相似问多的知识点进行剪切。
7.根据权利要求5所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S2中,训练集负例的构造方式包括:按Jaccard距离召回、按Lucene召回、从其他知识点中随机选择和按照正例中各问题出现的比例从其他知识点中采样选择,以及每个句子和句子中的名词/动词构成pair对;而针对知识点分布不均衡的问题,对相似问很多的知识点进行相似问剪切。
8.根据权利要求1所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S3中,由于深度学习需要较多的数据,为了增强数据,采用以下策略:
交换两个句子之间的顺序;
对句子进行分词,重新组合生成新的句子;
打乱句子的顺序,随机抽取句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东国粒教育技术有限公司,未经广东国粒教育技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011584447.X/1.html,转载请声明来源钻瓜专利网。