[发明专利]一种计算中文词语语义相似度的控制方法以及装置无效
申请号: | 201210174557.8 | 申请日: | 2012-05-30 |
公开(公告)号: | CN102955774A | 公开(公告)日: | 2013-03-06 |
发明(设计)人: | 杨燕;吴雯;吴奔斌;霍晓骏;王伟杰;洪磊;张波;崔永利;贺樑;宋树彬 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 隆天国际知识产权代理有限公司 72003 | 代理人: | 吴世华;冯志云 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算 中文 词语 语义 相似 控制 方法 以及 装置 | ||
技术领域
本发明涉及文本挖掘领域,具体地,是一种计算中文词语语义相似度的方法。
背景技术
词语语义相似度是信息处理领域中的一个重要课题,它在词义排歧、机器翻译、自动应答、情报检索、文本类聚等应用中都有广泛用途。然而词语相似度是一个主观性相当强的概念,如何得到一个接近于人类判断标准的相似度是一项很困难的工作。
现有的词语相似度计算大致分为两类:一类是根据某种世界知识来计算,另一类是利用大规模的语料库进行统计计算。前者根据概念间结构层次关系组织成的语义词典,利用这类语言学资源中概念间的上下为关系和同为关系来计算词语语义相似度,这类方法比较直观而且简单有效,但它受人主观影响比较大有事不能反映客观现实。后者通过上下文背景知识的统计分布来进行相似度计算,这种方法比较依赖于训练所用的语料库,计算量比较大,另外受数据稀疏和数据噪声的干扰比较大,有时会出现明显的错误。
在英语方面,英语的词语语义相似度研究已经比较成熟,众多的研究人员不仅提出了大量的计算方法,而且在评价标准、语料库、语义字典等方面均已比较完备。但中文由于其本身的特殊性,在分词,语法,语义等方面相对于英语来说都更复杂,所以研究成果比较匮乏,而且结果也不是很理想。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种计算中文词语语义相似度的控制方法,其特征在于,包括如下步骤:a.获取词语对,并根据所述词语对获取相应的特征向量,其中所述词语对包括第一词语以及第二词语,与之相对应的特征向量为第一特征向量以及第二特征向量;b.将只在所述第一特征向量或者所述第二特征向量出现的词语项作为第一词语项,查找所述第一词语项在同义词词林中的编码,根据所述编码在同一特征向量中查找所述编码下的词语项,将查找出的词语项对应的值中最大的值作为所述第一词语项的值,其中,对每一个只在所述第一特征向量或者所述第二特征向量出现的词语项,重复步骤b,分别得到相对应与所述第一特征向量的第一拓展特征向量以及相对应于所述第二特征向量的第二拓展特征向量;c.将所述第一特征向量以及第二特征向量中的一个词语项作为第二词语项,查找其在同义词词林中的编码,将所述第二词语项所在的原始向量中属于所述编码的所有词语项对应的值进行累加并将该编码和累加值加入到对应的映射向量中,其中,对每一个所述第一特征向量以及第二特征向量的词语项重复步骤c,分别得到相对应与所述第一特征向量的第一映射特征向量以及相对应于所述第二特征向量的第二映射特征向量;以及d.根据所述拓展特征向量以及所述映射特征向量计算词语相似度。
根据本发明的另一个方面还提供一种计算中文词语语义相似度的控制装置,其特征在于,包括如下模块:特征向量生成模块,其用于分别生成与所述第一词语以及第二词语对应的第一特征向量以及第二特征向量;拓展特征向量生成模块,其用于对所述特征向量进行词义拓展生成拓展特征向量;映射特征向量生成模块,其用于对所述特征向量进行语义映射生成映射特征向量;以及相似度计算模块,其用于根据所述拓展特征向量以及映射特征向量的相似度计算最终相似度的值。
根据本发明的另一个方面还提供一种计算中文词语语义相似度的计算方法,其特征在于,包括如下步骤:a.获取与特定的词语对相关的特征向量;b.对获得的特征向量进行语义拓展和语义映射;c.计算词语相似度。
优选地,所述步骤a包括如下步骤:a1.对于特定的词语对,抓取特定量的文本片段。对于每个词语,我们从语料库中抽取定量的包含了该词的文本片段;a2.对于获得到的文本片段,首先进行分词,统计共现词出现的频度,对于每个特定词语,得到一个跟它相关的由它共现词以及频数组成的特征向量;a3.引入一个参数μ,对a2中的向量进行初步过滤。
优选地,所述步骤b包括如下步骤:b1.对于步骤a中获得到的特征向量,进行语义拓展,得到新的特征向量;b2.对于步骤a中获得到的特征向量进行语义映射,得到另一组新的特征向量。
优选地,所述步骤b1包括如下步骤:b11.对于只在一个向量V1中出现的项I1,我们首先得到它在同义词词林中的编码;b12.在同一个向量V1中查找属于该编码的项;在V1中用那些项中的值的最大值作为项I1的值。
优选地,所述步骤b2包括如下步骤,b21.我们把步骤a中得到的特征向量的项映射到同义词词林的编码;b22.用原始向量中处于此编码下的项的值的累加值作为新的特征向量的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210174557.8/2.html,转载请声明来源钻瓜专利网。