[发明专利]一种面向垂直领域的问句匹配方法、装置、终端以及可读存储介质在审
申请号: | 202011241121.7 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112364142A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 袁显峰;赵琨;杜梦豪;丁健 | 申请(专利权)人: | 上海恒企教育培训有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/211;G06F40/247;G06F40/284;G06F40/30 |
代理公司: | 深圳市新虹光知识产权代理事务所(普通合伙) 44499 | 代理人: | 孙畅 |
地址: | 200433 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 垂直 领域 问句 匹配 方法 装置 终端 以及 可读 存储 介质 | ||
本发明涉及自然语言处理技术领域,公开了一种面向垂直领域的问句匹配方法、装置、终端以及可读存储介质;其中,该方法包括:创建近邻检索库,得到NER模型;获取问句与候选句并处理成为第一词序列以及第二词序列;对第二词序列中每个词进行第一次词序列中词的同义词的替换,得到新的第二词序列;计算问句的表达向量;计算候选句的表达向量;通过问句的表达向量以及候选句的表达向量计算余弦距离;分别计算问句以及候选句的近邻编辑距离;对余弦距离和近邻编辑距离做相似平滑的融合计算,得到问句与候选句的匹配度;上述提供的一种面向垂直领域的问句匹配方法,增强了问句语义匹配的准确率。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种面向垂直领域的问句匹配方法、装置、终端以及可读存储介质。
背景技术
21世纪以来,随着智能手机的普及与互联网的迅速发展,信息时代带来了大量的语音图像和文本信息,教育、金融、医疗等行业产生的非结构化文本数据量呈现出爆炸式增长,对这些文本信息的深度挖掘和研究,对于帮助人们快速准确获取关注内容具有重要的意义。其中,语义匹配是文本挖掘中的一个至关重要的算法,也是联系文本建模和表示等基础研究和文本潜在信息上层应用研究的纽带。例如,在文本分类、文本聚类、文本表示等信息检索问题上,搜索引擎中的问答系统、智能检索等问题都需要语义匹配算法作为核心索引方案。此外,问句语义匹配也广泛应用于自然语言处理问题中并提供基础技术支撑。因此,对问句语义匹配的研究具有非常重要的应用价值。
现有技术中,针对短文本语义相似匹配的度量,常用的方法主要为基于CBOW和SKIP-GRAM原理,对百万级领域数据进行机器学习并获取到词或字的向量表征即Word2Vec。对问句分词后,利用Word2Vec表征句子的词集,求平均后得到问句语义表达,最后通过计算余弦距离获取相似性,并得出最佳匹配问句。但是目前,这种方法的匹配准确率还有上升的空间。
发明内容
本发明的目的在于提供一种面向垂直领域的问句匹配方法、装置、终端以及可读存储介质,用于提高面向垂直领域的问句匹配准确率,旨在解决现有技术中,面向垂直领域的问句匹配准确率低的问题。
第一方面,本发明实施例提供了一种面向垂直领域的问句匹配方法,包括:
获取基础数据集,对基础数据集采用CBOW词袋方式训练Word2Vec,并利用空间近邻搜索算法Annoy创建近邻检索库;利用基础数据集基于BERT在BLSTM-CRF模型上进行增量预训练,得到NER模型;
获取问句与候选句,对所述问句以及所述候选句进行处理,生成所述问句对应的第一词序列以及所述候选句对应的第二词序列;
对所述第二词序列中的每个词进行所述第一次词序列中词的同义词的替换,得到新的第二词序列,以降低其与所述第一词序列的差异性;
计算所述问句的表达向量;
计算所述候选句的表达向量;
通过所述问句的表达向量以及所述候选句的表达向量计算余弦距离;
分别计算所述问句以及所述候选句的近邻编辑距离;
对所述余弦距离和所述近邻编辑距离做相似平滑的融合计算,得到所述问句与所述候选句的匹配度。
在一些实施方式中,所述获取问句与候选句,对所述问句以及所述候选句进行处理,生成所述问句对应的第一词序列以及所述候选句对应的第二词序列,具体包括:
获取问句与候选句,利用所述NER模型结合分词器对所述问句和所述候选句进行分词;
移除词集中的停用词并进行去重去符号处理,生成所述问句对应的第一词序列以及所述候选句对应的第二词序列。
在一些实施方式中,所述计算所述问句的表达向量,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海恒企教育培训有限公司,未经上海恒企教育培训有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011241121.7/2.html,转载请声明来源钻瓜专利网。