[发明专利]一种面向垂直领域的问句匹配方法、装置、终端以及可读存储介质在审
申请号: | 202011241121.7 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112364142A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 袁显峰;赵琨;杜梦豪;丁健 | 申请(专利权)人: | 上海恒企教育培训有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/211;G06F40/247;G06F40/284;G06F40/30 |
代理公司: | 深圳市新虹光知识产权代理事务所(普通合伙) 44499 | 代理人: | 孙畅 |
地址: | 200433 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 垂直 领域 问句 匹配 方法 装置 终端 以及 可读 存储 介质 | ||
1.一种面向垂直领域的问句匹配方法,其特征在于,包括:
获取基础数据集,对基础数据集采用CBOW词袋方式训练Word2Vec,并利用空间近邻搜索算法Annoy创建近邻检索库;利用基础数据集基于BERT在BLSTM-CRF模型上进行增量预训练,得到NER模型;
获取问句与候选句,对所述问句以及所述候选句进行处理,生成所述问句对应的第一词序列以及所述候选句对应的第二词序列;
对所述第二词序列中的每个词进行所述第一次词序列中词的同义词的替换,得到新的第二词序列,以降低其与所述第一词序列的差异性;
计算所述问句的表达向量;
计算所述候选句的表达向量;
通过所述问句的表达向量以及所述候选句的表达向量计算余弦距离;
分别计算所述问句以及所述候选句的近邻编辑距离;
对所述余弦距离和所述近邻编辑距离做相似平滑的融合计算,得到所述问句与所述候选句的匹配度。
2.如权利要求1所述的一种面向垂直领域的问句匹配方法,其特征在于,所述获取问句与候选句,对所述问句以及所述候选句进行处理,生成所述问句对应的第一词序列以及所述候选句对应的第二词序列,具体包括:
获取问句与候选句,利用所述NER模型结合分词器对所述问句和所述候选句进行分词;
移除词集中的停用词并进行去重去符号处理,生成所述问句对应的第一词序列以及所述候选句对应的第二词序列。
3.如权利要求1所述的一种面向垂直领域的问句匹配方法,其特征在于,所述计算所述问句的表达向量,具体包括:
遍历所述第一词序列,通过Annoy查询每个词的前10个近邻向量,按列对每个词的所述近邻向量做加权平均,得到每个词的唯一向量;
对所有向量按列求和,计算得到所述问句的表达向量。
4.如权利要求1所述的一种面向垂直领域的问句匹配方法,其特征在于,所述计算所述候选句的表达向量,具体包括:
遍历所述第二词序列,通过Annoy查询每个词的前10个近邻向量,按列对每个词的所述近邻向量做加权平均,得到每个词的唯一向量;
对所有向量按列求和,计算得到所述候选句的表达向量。
5.如权利要求1所述的一种面向垂直领域的问句匹配方法,其特征在于,所述分别计算所述问句以及所述候选句的近邻编辑距离,具体包括:
获取所述第一词序列中每个词的前10个近邻词记为{Mi};
获取所述第二词序列中的每个词与{Mi}中的对应每个词的Mi求解改进的编辑距离,并取距离min(LD);
对n个词的编辑距离求均值,得到所述问句与所述候选句的近邻编辑距离。
6.如权利要求1所述的一种面向垂直领域的问句匹配方法,其特征在于,所述基础数据集包括垂直领域获取的文献资料、百度百科数据以及百度知道数据中的一种或多种。
7.一种面向垂直领域的问句匹配装置,其特征在于,包括:
第一获取单元,用于获取基础数据集,对基础数据集采用CBOW词袋方式训练Word2Vec,并利用空间近邻搜索算法Annoy创建近邻检索库;利用基础数据集基于BERT在BLSTM-CRF模型上进行增量预训练,得到NER模型;
第二获取单元,用于获取问句与候选句,对所述问句以及所述候选句进行处理,生成所述问句对应的第一词序列以及所述候选句对应的第二词序列;
替换单元,对所述第二词序列中的每个词进行所述第一词序列中词的同义词的替换,得到新的第二词序列,以降低其与所述第一词序列的差异性;
第一计算单元,用于计算所述问句的表达向量;
第二计算单元,用于计算所述候选句的表达向量;
第三计算单元,用于通过所述问句的表达向量以及所述候选句的表达向量计算余弦距离;
第四计算单元,用于分别计算所述问句以及所述候选句的近邻编辑距离;
第五计算单元,对所述余弦距离和所述近邻编辑距离做相似平滑的融合计算,得到所述问句与所述候选句的匹配度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海恒企教育培训有限公司,未经上海恒企教育培训有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011241121.7/1.html,转载请声明来源钻瓜专利网。