[发明专利]一种文本相似度计算方法和装置有效
申请号: | 202110046179.4 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112364947B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 张姗姗;姜巍;于游;赵永强 | 申请(专利权)人: | 北京育学园健康管理中心有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/194;G06F40/284;G06F40/30;G06F16/35;G06F16/31 |
代理公司: | 北京绘聚高科知识产权代理事务所(普通合伙) 11832 | 代理人: | 罗硕 |
地址: | 100000 北京市朝阳区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 相似 计算方法 装置 | ||
本发明实施例提供一种文本相似度计算方法和装置,本发明实施例通过分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;先基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;然后再基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;最后根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,通过提取文本中的关键词,并利用关键词计算出文本之间的相似度,从而达到快速计文本相似度的目的。
技术领域
本发明属于互联网技术领域,尤其涉及一种文本相似度计算方法和装置。
背景技术
随着互联网信息技术的快速发展,人们可以方便地上传或下载共享的文档信息,这种共享模式将直接导致了海量文档的存在。当前主要采用整句匹配,或者关键词匹配的方式确定文本之间的相似度,然而,由于中文句子的语法结构的复杂多变,语义语境的多异性等因素,增加了中文句子相似度计算难度,所以现有技术无法从批量文档中,快速精准的获取相似文档。
鉴于此种情况,现有技术中提出了大量的解决方法,主要分为:现有技术1,将句子直接转换为空间向量的方法,结合统计实现的基于向量空间模型(VSM)的方法;现有技术2,基于构建的语义知识库进行计算的语义模型的方法。
虽然,在学者们的不断研究过程中,对当前方法进行了一定程度的改进,但是仍然存在一定的问题。其中,现有技术1基于向量空间模型(VSM)的方法,只是通过比较句子向量之间的关系来得到文本间相似度,在整个计算模型中,各词语是相互独立的,并无语义层面的关系,因此其分析文本间相似度结果往往不够准确;而现有技术2基于构建的语义知识库进行计算的语义模型的方法,虽然充分考虑了语义层面的关系,使得计算结果与人类的主观判断更加相符,但是,由于整个计算过程中,文本的全部句法结构,语义信息被考虑,增加了模型的计算复杂度,因此,如何从批量文档中,快速精准的获取相似文档,从而有效的进行信息检索就变得尤为重要。
发明内容
为了解决上述现有技术中文本相似度计算结果的精度较低的技术问题,本申请提供了一种文本相似度计算方法和装置。
第一方面,本发明提供了一种文本相似度计算方法,所述方法包括:
分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度。
可选地,所述层次树包含有多个节点,其中,所述多个节点中各节点中存储有关键词的属性信息,所述属性信息包括所述关键词在所述层次树中的深度信息、语义路径以及该节点在所述层次树中所处等级密度信息。
可选地,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,则根据所述关键词a和所述关键词b的属性信息计算所述关键词a与所述关键词b的相似度;
基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度。
可选地,所述属性信息包括关键词在所述层次树中的语义路径信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京育学园健康管理中心有限公司,未经北京育学园健康管理中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110046179.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图片加载方法、装置
- 下一篇:一种车道线识别方法及装置