[发明专利]一种基于知网的词语语义相似度计算方法有效
申请号: | 201810767896.4 | 申请日: | 2018-07-12 |
公开(公告)号: | CN109101488B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 杨丽花;李蕾;杨龙祥 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 陈望坡;姚姣阳 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知网 词语 语义 相似 计算方法 | ||
本发明公开了一种基于知网的词语语义相似度计算方法,包括以下步骤:步骤一:计算两个义原可达路径上所有义原节点的边权重;步骤二:计算义原距离;步骤三:计算义原相似度;步骤四:计算义项相似度;步骤五:计算词语语义相似度。本发明的优点是:通过在边权重函数中引入两义原可达路径上所有义原节点的密度,并利用权重因子来调整义原深度和义原密度对义原距离的影响,有效提高词语语义相似度计算的精确度,并且实用性高,从而提高了数据质量,为数据挖掘提供“干净”的数据。
技术领域
本发明涉及大数据数据预处理技术领域,具体涉及一种基于知网的词语语义相似度计算方法。
背景技术
词语语义相似度计算在数据相似度检测、信息检索以及基于实例的机器翻译等领域有着广泛的应用。当前词语语义相似度计算方法大致可分为两类:一类是利用大规模的语料进行统计词语的相关性,即基于统计的方法;一类是根据某种世界知识计算相似度的方法,即基于世界知识的方法。其中,基于统计的方法是将词汇上下文信息的概率分布作为词汇语义相似度计算的主要指标,该方法能够对词语间的语义相似性进行比较精确和有效的度量,但需要依赖于训练所用的语料库,计算量大,计算方法复杂。此外,基于统计的方法受数据稀疏和数据噪声的干扰较大,故在实际中该方法一般被较少使用。基于世界知识的方法通常是基于某个知识完备的语义词典中的层次结构关系进行计算,该方法简单有效,无需用语料库进行训练,也比较直观,易于理解,但这种方法受人的主观意识影响较大,有时并不能准确反映客观事实。
知网是一个以汉语和英语词语所代表的概念为描述对象、以揭示概念与概念之间以及概念所具有属性之间的关系为基本内容的常识库和知识库。基于知网的词语语义相似度计算的最终归结于义原相似度计算的层面上,刘群等人(刘群等人,中国,“基于《知网》的词汇语义相似度计算”,中文计算语言学,2002,第7卷第2期)提出了一种只考虑义原之间距离的词语语义相似度计算方法;葛斌等人(葛斌等人,中国,“基于知网的词汇语义相似度计算方法研究”,计算机应用研究,2010,第27卷第9期)通过调整知网的描述语言结构,提出补充义原是对基本义原的语义补充,其计算权值应小于基本义原,并考虑不同深度、密度义原节点所携带的语义信息量不同,计算权值也不同。朱新华等(朱新华等,中国,“基于知网与词林的词语语义相似度计算”,中文信息学报,2016,第30卷第4期)提出结合知网与同义词词林两个知识库的词语语义相似度计算方法。
然而,这些现有的词语语义相似度计算方法均未深入考虑同一棵树中的两个不同义原的可达路径上所有节点的密度对义原距离的影响,且也未考虑义原深度与义原密度的主次关系,导致词语语义相似度的计算精确低。因此,亟需发明一种能有效提高词语语义相似度计算的精确度的方法。
发明内容
本发明的目的是提供一种能有效提高词语语义相似度计算的精确度的基于知网的词语语义相似度计算方法。
为实现上述目的,本发明采用了如下技术方案:所述的一种基于知网的词语语义相似度计算方法,包括以下步骤:
步骤一:计算两个义原可达路径上所有义原节点的边权重;
步骤二:计算义原距离;
步骤三:计算义原相似度;
步骤四:计算义项相似度;
步骤五:计算词语语义相似度。
进一步地,前述的一种基于知网的词语语义相似度计算方法,其中:在步骤一中,边权重的具体计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810767896.4/2.html,转载请声明来源钻瓜专利网。