[发明专利]一种基于上下文窗口的词语语义相似度求解方法在审

申请号：	201610833572.7	申请日：	2016-09-20
公开（公告）号：	CN106610942A	公开（公告）日：	2017-05-03
发明（设计）人：	金平艳	申请（专利权）人：	四川用联信息技术有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	610054 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于上下文窗口词语语义相似求解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语义网络技术领域，具体涉及一种基于上下文窗口的词语语义相似度求解方法。

背景技术

自从进入21世纪以来，全球的互联网行业进入了一个高速发展的新时期，各种新技术不断涌现出来。作为联系计算机与人之间重要技术的自然语言处理也取得了长足的发展。国内外对词语语义相似度的计算方法大体可以分为两类：第一，基于语义词典的词语语义相似度计算方法，这种方法简单有效、易于理解，但是它依赖于比较完备的按照概念间结构层次关系组织的大型语义词典；第二，基于语料库的词语语义相似度计算方法，这种方法利用大规模语料库，将词语的上下文信息作为语义相似度计算的参照依据。基于语料库的方法建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这一假设的基础上。词语的上下文是语料库语言学中自然语言知识获取和解决自然语言处理中多种实际应用问题依靠的资源和基础，但上下文“窗口”开多大为宜，为克服当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足，以及实现词语语义相似度的量化计算，本发明提供了一种基于上下文窗口的词语语义相似度求解方法。

发明内容

针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足，为实现词语语义相似度的量化计算，本发明提供了一种基于上下文窗口的词语语义相似度求解方法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：初始化统计方法模块。

步骤2：将待比较词C∈(c₁，c₂)输入初始化统计方法模块中。

步骤3：分别确定待比较词C∈(c₁，c₂)的上下文词语范围“窗口”。

步骤4：根据步骤3得到的上下文词范围，分别找到待比较词C∈(c₁，c₂)所对应的权重最大的两句子maxweight(C∈(c₁，c₂))。

步骤5：计算这两句子maxweight(C∈(c₁，c₂))的相似度

步骤6：由步骤5得到的两句子相似度计算待比较词(c₁，c₂)的相似度sim(c₁，c₂)。

本发明有益效果是：

1、对上下文语境有效范围的确定提供了非常有价值的定量化的描述，克服了前人主观描述的不足。

2、上下文对关键词的描述能力相对位置由近及远逐渐递减，符合人们一般认识。