[发明专利]一种问答检索系统的同义词挖掘方法及装置有效
申请号: | 201910672217.X | 申请日: | 2019-07-24 |
公开(公告)号: | CN110442760B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 郑申文;丁锴;陈涛;王开红;李建元 | 申请(专利权)人: | 银江技术股份有限公司 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/906;G06F16/951;G06F40/247 |
代理公司: | 杭州之江专利事务所(普通合伙) 33216 | 代理人: | 张慧英 |
地址: | 310012 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 问答 检索系统 同义词 挖掘 方法 装置 | ||
1.一种问答检索系统的同义词挖掘方法,其特征在于,包括如下步骤:
(1)爬取和收集垂直领域不同类别的问答语料数据集A和该领域用于训练的大语料数据集B,并对不同类别的数据集A和数据集B进行数据预处理,得到关键词提取数据和训练数据;
(2)对数据集A和数据集B进行词向量训练,提取文本中同义词的特征,挖掘大语料下的广义相关词,并利用词性对其进行筛选,得到缩略相关词,再采用分类挖掘方法,在同类别下挖掘同义词对,形成最终的同义词集;具体如下:
(2.1)文本向量化:根据分词后的词表,将词表中的词语转化为词向量形式;首先对词表进行one-hot编码得到矩阵M,利用word2vec训练词向量,构建|V|*d的向量矩阵,其中隐藏层的矩阵用N表示,V代表词表的大小,d代表词向量的维度;得到每个词语的词向量:Q=M*N;
(2.2)文本同义词特征提取:根据步骤(2.1)得到的词向量,将某一类别关键词集中的各个词语与词表中各个词语进行词嵌入后计算余弦相似度,其中余弦值大于设置的相似度阈值的,作为广义相关词集;
(2.3)词性筛选:将步骤(2.2)得到的关键词的广义相关词,进行词性筛选,确保广义相关词中的词语与某一类别关键词当中的词语的词性应保持一致,得到缩略相关词集;
(2.4)同义词集获取:在当前类别的关键词集中的关键词与步骤(2.3)中的缩略相关词集进行欧式距离的计算,其中距离值大于预设阈值的,作为最终的同义词集;
(3)提取同义词对的共现频次,并根据共现频次计算确定同义词替换的概率;
(4)基于同义词集进行同义词替换,并检查检索召回结果,对不满足检索召回阈值的同义词对,进行反馈修正。
2.根据权利要求1所述的一种问答检索系统的同义词挖掘方法,其特征在于:所述步骤(1)具体如下:
(1.1)爬取收集数据:爬取和收集垂直领域的不同类别的数据集A和数据集B;
(1.2)数据清洗:根据步骤(1.1)中爬取收集的数据,对其进行数据清洗,包括相似的文本去重,低质量文本过滤,缺失的文本去除,以及对较短的文本进行删除;
(1.3)文本分类:根据步骤(1.2)得到处理后的数据,对其进行文本分类;其中,对于没有类别的数据采用CNN算法进行文本分类;
(1.4)数据分词:根据步骤(1.2)得到处理后的数据,分别对数据集A和数据集B进行细粒度分词,并建立停用词典和自定义词典,提高分词质量;
(1.5)统计词频并排序:根据步骤(1.4)数据分词得到的结果,统计每个单词出现的频率,并对词频进行降序排序,生成词表;
(1.6)关键词提取:将数据集A中的问题Query细粒度分词后的结果作为关键词集I,并对数据集A中的答案Answer提取关键词得到关键词集II,将关键词集I与关键词集II合并得到初步需要挖掘的关键词集,再进行词性筛选,得到最终需要挖掘同义词的关键词集。
3.根据权利要求2所述的一种问答检索系统的同义词挖掘方法,其特征在于:所述步骤(1.6)中,提取关键词采用基于统计的TF-IDF算法与基于图模型的TextRank算法相结合,提取文本关键词。
4.根据权利要求2所述的一种问答检索系统的同义词挖掘方法,其特征在于:所述的词性筛选具体为:对初步的关键词集进行词性筛选,保留名词、动词和形容词;最后得到的最终需要挖掘同义词的关键词集应按类别区分开。
5.根据权利要求1所述的一种问答检索系统的同义词挖掘方法,其特征在于:所述步骤(3)具体如下:
(3.1)提取共现频次:根据步骤(2)得到的最终同义词集,提取同义词集的共现频次;
(3.2)计算同义词替换概率:根据步骤(3.1)得到的同义词共现频次,计算同义词替换概率;计算一组同义词对的替换概率P公式如下:
其中,P为同义词对的替换概率,count为这一组同义词对的共现频次,count_all为同义词对中某个词的所对应的词语的共现总次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于银江技术股份有限公司,未经银江技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910672217.X/1.html,转载请声明来源钻瓜专利网。