[发明专利]基于主权迭代搜索的概念关系快速发现方法有效
申请号: | 201210125040.X | 申请日: | 2012-04-25 |
公开(公告)号: | CN102750315A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | 张辉;陈勇;胡红萍;马永星 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙) 11381 | 代理人: | 陈曦;郭亚芳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主权 搜索 概念 关系 快速 发现 方法 | ||
技术领域
本发明涉及一种概念关系快速发现方法,尤其涉及一种基于主权迭代搜索的概念关系快速发现方法,属于语义网络技术领域。
背景技术
在自然语言世界中,概念是对客观实体的抽象描述,是客观实体属性特征的集合。由于客观实体的相互作用,概念之间亦产生千丝万缕的关联,我们称之为概念关系。概念及概念关系共同构成了自然语言世界的基础,如果说自然语言世界是一个语义网络,那么概念就是语义的载体,而概念关系就是语义载体间的纽带。通过研究概念关系可以反射得出客观世界中实体关联的内容与性质,进而为人类的工作和生活服务。
在当前信息社会中,互联网无疑是数据的最大载体,以超链接关联的超文本信息日益增长,构成了信息网络世界,已经彻底改变了现代人类的工作和生活的方式。然而,亦是因为信息的爆炸式增长,管理和使用信息越来越复杂,越来越困难。为适应语义推理和智能化服务的需求,语义Web为代表的下一代信息互联网络试图在任何微小数据间构建连接,而概念关系正是构建语义网络的基础。因此,概念关系抽取技术是人类信息第二次变革的基础。
搜索引擎和文本挖掘是平台门户系统的核心技术,而概念和文本的“语义相关度计算”又是搜索引擎和文本挖掘的关键基础。在纯粹的统计模型下,由于缺少知识智能的支持,只能以“相似度”代替“语义相关度”,作为搜索引擎和文本挖掘中解决一系列复杂技术问题的基础。
但是,随着信息量爆炸增长、信息结构日益复杂化和互联网的社会化趋势,人们对搜索引擎和文本挖掘提出了愈发强烈的搜索智能和个性化服务的需求,此时,语义相关度计算的问题再次置于搜索引擎和文本挖掘技术面前,“相似度”计算无论在准确性还是物理意义上都已经无法满足这种需求,“语义相关度”计算似乎已经成为一个智能搜索时代必须解决的基础问题。
目前,布尔模型和向量空间模型均在文本分类中得到广泛而有效的应用。布尔搜索可以快速发现概念关系,但是准确性和召回率均无法得到保证,而且用于构造布尔查询的特征元素数目亦难以确定,查询特征过少则会导致查询效率降低,结果数过多,查询特征过多则召回率降低。扩展的布尔搜索可以对查询匹配的特征元素赋予权重,可以一定程度上提高召回率,但是不能解决查询逻辑的构造问题。向量空间模型也存在一些缺点,主要表现为:向量空间的维数往往很高,导致计算量大,影响系统速度。此外,向量中特征权值的确定也是较难考量的一个部分。
发明内容
针对现有技术所存在的不足,本发明所要解决的技术问题在于提供一种概念关系快速发现方法。该方法既可保证查询效率,亦可保证准确性和召回率
为实现上述的发明目的,本发明采用下述的技术方案:
一种基于主权迭代搜索的概念关系快速发现方法,包括:
使用布尔搜索消除不包含相同非零元素或者仅包含极少非零元素的概念对;
使用枚举法计算向量空间下的概念相关度;
排序求得最相关概念。
更进一步地,所述布尔搜索包括:
将概念的语义特征向量转化为布尔表达式,并构建特征向量正向索引和特征倒排索引,使用目标概念的语义特征构造逻辑查询,在逻辑表达式集合中搜索得到目标概念的相关概念集。
更进一步地所述使用枚举法计算向量空间下的概念相关度步骤包括:
a.搜索器根据特征向量正向索引搜索特征向量;
b.根据搜索到的特征向量获取主权特征;
c.搜索器以进行关联搜索,选出候选相关概念,并放入候选相关概念集;
d.候选概念选取策略得到候选概念;
e.候选概念集饱和控制策略搜索到关联特征倒排拉链后,选取候选概念;
f.判断候选概念集是否已达到饱和,若候选概念集未达到饱和则返回b,重复b~f,直到候选概念集达到饱和;
f.若候选概念集已达到饱和迭代搜索停止,精确计算目标概念同候选相关概念的相关度。
更进一步地,所述候选概念选取策略包括:
a.搜索器使用关联特征为查询键,在特征倒排索引中执行查询,得到候选概念拉链;
b.将窗口为M的滑动窗口置于拉链首部,若元素不多于M,则全部选为候选概念;
c.如果元素多于M,监督器监测监督条件,即将首尾权重减幅和幅度阈值进行对比;
d.若首尾权重减幅小于或等于幅度阈值,滑动窗口移动一位并返c,重复c~d,直到首尾权重减幅大于幅度阈值;
e.若首尾权重减幅大于幅度阈值,则将窗口后的元素剪掉,剩余即选为候选概念。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210125040.X/2.html,转载请声明来源钻瓜专利网。