[发明专利]同义词检索结果按词义自动聚类方法有效
申请号: | 201210556988.0 | 申请日: | 2012-12-20 |
公开(公告)号: | CN103049524A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 刘伟;王星 | 申请(专利权)人: | 中国科学技术信息研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 赵建刚 |
地址: | 100038*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同义词 检索 结果 词义 自动 方法 | ||
技术领域
本发明属于文献检索和知识组织技术领域,具体涉及一种同义词检索结果按词义自动聚类方法。
背景技术
同义词在自然语言处理、信息检索等领域中具有十分重要的应用意义,通过扩展检索提高文献数据库和网络检索的效率,推动文献自动标引和检索的智能化,并能应用于分类表、叙词表、语义网络、本体等知识组织系统的构建,以及自动分类、自动文摘、自动翻译、自动问答和其他中文信息处理领域。
目前有各种类型的同义词检索系统,以客户端(比如有道、灵格斯、金山词霸等)或网络在线(比如)方式为用户提供同义词检索服务,表1分别列出了一些常见的客户端和在线的同义词检索系统。
表1.同义词检索系统示例
目前同义词检索系统存在一个普遍的缺陷,就是对同义词检索结果没有按照词义聚类。在实际应用中,通常只需要其中一种词义的同义词。以英文词汇“plant”为例,包含了工厂、植物、设备、种植等多种词义,对其进行同义词检索时,所有词义的同义词都会作为检索结果返回,而没有按照不同的词义进行聚类,因此检索者检索体验差,难以准确获得需要检索的信息。
因此,对同义词检索系统的检索结果按照词义进行聚类是许多重要应用迫切需要解决的关键技术问题之一,所以本发明具有非常重要的实际意义和广阔的应用前景。
发明内容
针对现有技术存在的缺陷,本发明提供一种同义词检索结果按词义自动聚类方法,能够对同义词检索系统的检索结果自动进行词义聚类,从而使检索者更加准确简明的获得所需的检索信息,提高检索者的检索体验。
本发明采用的技术方案如下:
本发明提供一种同义词检索结果按词义自动聚类方法,包括以下步骤:
S1,向同义词检索系统提交检索词进行一级检索,获得一级检索结果;
S2,将所述一级检索结果中的每个词都进行二级检索,获得二级检索结果;
S3,构建所述二级检索结果的交集矩阵;
S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵;
S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类。
优选的,所述一级检索结果得到m个词,则:S3,构建所述二级检索结果的交集矩阵具体为:
S31,初始化(m+1)×(m+1)大小的交集矩阵SM;
S32,将所述一级检索结果填入所述交集矩阵的首行首列;
S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格。
优选的,S32,将所述一级检索结果填入所述交集矩阵的首行首列具体为:
将所述一级检索结果填入所述交集矩阵的首行具体为:将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格:[0,1]、[0,2]...[0,m];
将所述一级检索结果填入所述交集矩阵的首列具体为:将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格:[1,0]、[2,0]...[m,0];
其中,所述一级检索结果填入所述交集矩阵首行的顺序与填入所述交集矩阵首列的顺序相同。
优选的,S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格具体为:
对于所述交集矩阵除首行首列以外的其它任意一个单元格,即第[i,j]单元格,所述第[i,j]单元格填写一级检索结果中第i词的二级检索结果与第j词的二级检索结果的交集。
优选的,S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵具体为:
所述词义相似度矩阵的大小与所述二级检索结果的交集矩阵的大小相同;
所述词义相似度矩阵的的首行首列与所述二级检索结果的交集矩阵的首行首列相同;
对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个0或1的值。
优选的,所述对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个0或1的值具体为:
对于所述词义相似度矩阵中除首行首列外的一个单元格,如果满足下列三种情况之一,则该单无格赋值1,否则赋值为0;
第一种情况,如果对应行首词的同义词检索结果与对应列首词的同义词检索结果交集的大小为大于等于2,该单元格赋值1;
第二种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值1;
第三种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所,未经中国科学技术信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210556988.0/2.html,转载请声明来源钻瓜专利网。