[发明专利]同义词挖掘方法、装置、存储介质及计算机设备有效
申请号: | 202011278772.3 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112395867B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 陈乐清;李炫;曾增烽;刘东煜 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/284;G06F16/33;G06F16/36 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 黄耀威 |
地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同义词 挖掘 方法 装置 存储 介质 计算机 设备 | ||
1.一种同义词挖掘方法,其特征在于,所述方法包括:
获取目标语句,并通过全文搜索引擎对所述目标语句进行搜索,得到目标语句的第一相近语句,其中,所述目标语句和所述第一相近语句包含至少一个相同词语;
根据所述目标语句和所述第一相近语句,创建相近句子对;
对所述相近句子对进行相似度评分,并根据相似度评分得到同义句对,以及对所述同义句对进行词语对齐提取,得到同义词对;
将所述同义词对和所述目标语句输入所述全文搜索引擎中进行迭代搜索和迭代提取,得到多个同义句对和多个同义词对;
其中,所述对相近句子对进行相似度评分,并根据相似度评分得到同义句对,包括:通过同义句匹配模型对每一个所述相近句子对进行相似度评分,得到每个所述相近句子对的相似度值;依次判断每个所述相近句子对的相似度值是否大于第一相似度阈值;若所述相近句子对的相似度值大于所述第一相似度阈值,则判定所述相近句子对为同义句对;
所述同义句匹配模型的训练方法包括:从所述全文搜索引擎对应的语料数据库中抽取出预设比例的样本语句,并将所述样本语句依次输入到所述全文搜索引擎中,得到样本语句的相近语句;根据所述样本语句和所述样本语句的相近语句,创建样本句子对;获取所述样本句子对的同义句标注结果,并将所述样本句子对和所述样本句子对的标注结果输入到文本匹配模型中进行训练,得到同义句匹配模型;
所述将同义词对和所述目标语句输入所述全文搜索引擎中进行迭代搜索和迭代提取,得到多个同义句对和多个同义词对,包括:将所述目标语句和所述同义词对输入到所述全文搜索引擎中,得到目标语句的第二相近语句,其中,所述第二相近语句和所述第一相近语句不重复;根据所述目标语句和所述第二相近语句,创建相近句子对;对所述相近句子对进行相似度评分,并根据相似度评分得到同义句对,以及对所述同义句对进行词语对齐提取,得到同义词对;重复上述三个步骤,直至所述全文搜索引擎搜索出的语句全部与所述第一相近语句或所述第二相近语句相重复。
2.根据权利要求1所述的方法,其特征在于,所述获取目标语句之前,所述方法还包括:
采集语料数据,并将所述语料数据导入到所述全文搜索引擎对应的语料数据库中。
3.根据权利要求1所述的方法,其特征在于,所述对同义句对进行词语对齐提取,得到同义词对,包括:
对所述同义句对中的两个语句进行分词处理,并提取出两个语句的左边界词语的词向量和右边界词语的词向量;
分别计算出所述两个语句的左边界词语的词向量的相似度值和右边界词语的词向量的相似度值;
判断所述两个语句的左边界词语的词向量的相似度值和右边界词语的词向量的相似度值是否均大于第二相似度阈值;
若所述两个语句的左边界词语的词向量的相似度值和右边界词语的词向量的相似度值均大于所述第二相似度阈值,则确定两个语句中左边界词语和右边界词语卡取出的中间词语为同义词对。
4.根据权利要求1所述的方法,其特征在于,所述对同义句对进行词语对齐提取,得到同义词对,包括:
将所述同义句对依次输入到训练好的机器翻译模型中,得到同义句对中各词语对的对齐概率值;
依次判断所述同义句中各词语对的对齐概率值是否大于对齐概率阈值;
若所述同义句对中词语对的对齐概率值大于所述对齐概率阈值,则确定所述词语对为同义词对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011278772.3/1.html,转载请声明来源钻瓜专利网。