[发明专利]一种基于上下文窗口的词语语义相似度求解方法在审
申请号: | 201610833572.7 | 申请日: | 2016-09-20 |
公开(公告)号: | CN106610942A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 金平艳 | 申请(专利权)人: | 四川用联信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 上下文 窗口 词语 语义 相似 求解 方法 | ||
技术领域
本发明涉及语义网络技术领域,具体涉及一种基于上下文窗口的词语语义相似度求解方法。
背景技术
自从进入21世纪以来,全球的互联网行业进入了一个高速发展的新时期,各种新技术不断涌现出来。作为联系计算机与人之间重要技术的自然语言处理也取得了长足的发展。国内外对词语语义相似度的计算方法大体可以分为两类:第一,基于语义词典的词语语义相似度计算方法,这种方法简单有效、易于理解,但是它依赖于比较完备的按照概念间结构层次关系组织的大型语义词典;第二,基于语料库的词语语义相似度计算方法,这种方法利用大规模语料库,将词语的上下文信息作为语义相似度计算的参照依据。基于语料库的方法建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这一假设的基础上。词语的上下文是语料库语言学中自然语言知识获取和解决自然语言处理中多种实际应用问题依靠的资源和基础,但上下文“窗口”开多大为宜,为克服当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足,以及实现词语语义相似度的量化计算,本发明提供了一种基于上下文窗口的词语语义相似度求解方法。
发明内容
针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足,为实现词语语义相似度的量化计算,本发明提供了一种基于上下文窗口的词语语义相似度求解方法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:初始化统计方法模块。
步骤2:将待比较词C∈(c1,c2)输入初始化统计方法模块中。
步骤3:分别确定待比较词C∈(c1,c2)的上下文词语范围“窗口”。
步骤4:根据步骤3得到的上下文词范围,分别找到待比较词C∈(c1,c2)所对应的权重最大的两句子maxweight(C∈(c1,c2))。
步骤5:计算这两句子maxweight(C∈(c1,c2))的相似度
步骤6:由步骤5得到的两句子相似度计算待比较词(c1,c2)的相似度sim(c1,c2)。
本发明有益效果是:
1、对上下文语境有效范围的确定提供了非常有价值的定量化的描述,克服了前人主观描述的不足。
2、上下文对关键词的描述能力相对位置由近及远逐渐递减,符合人们一般认识。
4、权重贡献值weight(C,Cij∈(1,2,…2n))的线性与信噪比要更好,易于后续计算简便。
5、权重贡献值weight(C,Cij∈(1,2,…2n))的归一化曲线准确率更高
6、考虑了关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响。
7、应用基于上下文窗口技术求解词语语义相似度得以实现,计算精度、准确度都更高。
附图说明
表1为-j映射到weight(C,Cij∈(1,2,…2n))的离散表格。
图1为一种基于上下文窗口的词语语义相似度求解方法构造流程图。
图2为上下文位置权重贡献值离散图与归一化处理后的连续函数f(-j)曲线。
具体实施方式
针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足,为实现词语语义相似度的量化计算,结合图1对本发明进行了详细说明,其具体实施步骤如下:
步骤1:初始化统计方法模块
步骤2:将待比较词C∈(c1,c2)输入初始化统计方法模块中。
步骤3:分别确定待比较词C∈(c1,c2)的上下文词语范围“窗口”,需先求出位置信息Jsx、上下文位置权重值weight(C,Cij∈(1,2,…2n)),其具体计算过程如下:
3.1)先假设待比较词C∈(c1,c2)上下文语境的位置信息Jsx
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610833572.7/2.html,转载请声明来源钻瓜专利网。