[发明专利]语义相似度的计算方法及系统有效
申请号: | 201810790941.8 | 申请日: | 2018-07-18 |
公开(公告)号: | CN109145085B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 罗长寿;余军;魏清凤;郑亚明;王富荣;于维水;曹承忠;陆阳;郭强;王静宇 | 申请(专利权)人: | 北京市农林科学院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/30;G06F40/247 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100097 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 相似 计算方法 系统 | ||
本发明提供一种语义相似度的计算方法及系统,其中方法包括:获取第一文本和第二文本;对所述第一文本和第二文本进行分词处理;确定用于进行语义相似度判断的语境,根据所述用于进行语义相似度判断的语境收集样本文本并构成样本文本集;对所述样本文本集中的各样本文本进行分词处理,根据所述样本文本集的分词结果建立所述样本文本集的语境图;根据所述第一文本的分词结果、第二文本的分词结果以及所述语境图,计算所述第一文本和第二文本的语义相似度。本发明实施例能够提升文本间的差异精度,使得语义相似度计算的准确性更高。
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及语义相似度 的计算方法及系统。
背景技术
在问答系统中,通用聊天答案推送随机性强。但在专业应用领域, 回复内容需要精准。利用计算机识别“用户提问”与句库中已存在句 子进行语义比较的研究称为句子相似度研究。其作为自然语言处理中 一个关键性问题,一直是研究的热点和难点。句子相似度研究除了挖 掘句子本身词间关系及重叠度计算句子相似度外(如依赖于WordNet 架构和依赖于知网架构与语料库),基于神经网络的特征提取也开始得 到发展。
基于词语语义相似度的计算方法专家学者已进行了广泛的研究。 例如:基于词语共现的统计方法。该方法主要通过句中词频进行统计, 如TF-IDF算法、JaccardSimilarity Coefficient方法及Metzler基于 overlap的改进方法等。这些方法实现简单、高效,但完全忽略了句子 的词法及语义信息。另一种是基于词法和语义信息的方法。该方法考 虑了语义信息相关要素,但构建相对复杂,如基于本体的语义相似度 计算等。第三种,基于神经网络语料训练特征提取法,近年来也得到 了大力发展,如基于Word2vec的句子语义相似度计算研究等,其依赖 于语料的质量与数量,注重特征提取,忽略了句义的理解,不能实现 真正对语义的挖掘。第四种则是采用综合性融合手段的方法,如基于 多特征融合的句子语义相似度计算等。随着研究的深入,结合应用体 验发现,在实际应用中各种方法如果脱离了应用场景,其算法要么实 现复杂、要么效率低,不确定因素干扰多,有一定的操作局限性。因 此,现有技术提供了“一种基于语境的词语相似度计算方法”。该方法,在相似度计算方法的基础上,通过引入词语的上下文,采用模糊数学 的概念来评估词义相似度计算方法。该方法借鉴隶属度的相关定,构 造词语在上下文语境中的模糊重要度,提升了词的句义相似程度,但 在句子整体句义相似度上有不足。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的语 义相似度的计算方法及系统。
根据本发明的第一个方面,提供一种一种语义相似度的计算方法, 包括:
获取第一文本和第二文本;
对所述第一文本和第二文本进行分词处理;
确定用于进行语义相似度判断的语境,根据所述用于进行语义相 似度判断的语境收集样本文本并构成样本文本集;
对所述各样本文本进行分词处理,根据所述样本文本集的分词结 果建立所述样本文本集的语境图;
根据所述第一文本的分词结果、第二文本的分词结果以及所述语 境图,计算所述第一文本和第二文本的语义相似度;
其中,所述确定用于进行语义相似度判断的语境具体为:根据所 述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的 分词结果确定的第二文本的语境,或者由所述第一文本的语境和第二 文本的语境结合而成;所述语境图为表示样本文本集中各分词间组合 关系的无向图。
根据本发明的第二个方面,提供一种语义相似度的计算系统,包 括:
文本获取模块,用于获取第一文本和第二文本;
分词处理模块,用于对所述第一文本和第二文本进行分词处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市农林科学院,未经北京市农林科学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810790941.8/2.html,转载请声明来源钻瓜专利网。