[发明专利]基于主权迭代搜索的概念关系快速发现方法有效
申请号: | 201210125040.X | 申请日: | 2012-04-25 |
公开(公告)号: | CN102750315A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | 张辉;陈勇;胡红萍;马永星 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙) 11381 | 代理人: | 陈曦;郭亚芳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主权 搜索 概念 关系 快速 发现 方法 | ||
1.一种基于主权迭代搜索的概念关系快速发现方法,其特征在于包括如下步骤:
使用布尔搜索消除不包含相同非零元素或者仅包含极少非零元素的概念对,其中所述布尔搜索包括:将概念的语义特征向量转化为布尔表达式,并构建特征向量正向索引和特征倒排索引,使用目标概念的语义特征构造逻辑查询,在逻辑表达式集合中搜索得到目标概念的相关概念集;
进一步使用枚举法计算向量空间下的概念相关度,通过排序求得最相关概念。
2.如权利要求1所述的概念关系快速发现方法,其特征在于:
所述使用枚举法计算向量空间下的概念相关度步骤包括:
a.搜索器根据特征向量正向索引搜索特征向量;
b.根据搜索到的特征向量获取主权特征;
c.搜索器进行关联搜索,选出候选相关概念,并放入候选相关概念集;
d.使用候选概念选取策略得到候选概念;
e.候选概念集饱和控制策略搜索到关联特征倒排拉链后,选取候选概念;
f.判断候选概念集是否已达到饱和,若候选概念集未达到饱和则返回b,重复b~f,直到候选概念集达到饱和;
f.若候选概念集已达到饱和迭代搜索停止,精确计算目标概念同候选相关概念的相关度。
3.如权利要求2所述的概念关系快速发现方法,其特征在于:
所述候选概念选取策略包括:
3a.搜索器使用关联特征为查询键,在特征倒排索引中执行查询,得到候选概念拉链;
3b.将窗口为M的滑动窗口置于拉链首部,若元素不多于M,则全部选为候选概念,所述M为自然数;
3c.如果元素多于M,监督器监测监督条件,即将首尾权重减幅和幅度阈值进行对比;
3d.若首尾权重减幅小于或等于幅度阈值,滑动窗口移动一位并返3c,重复3c~3d,直到首尾权重减幅大于幅度阈值;
3e.若首尾权重减幅大于幅度阈值,则将窗口后的元素剪掉,剩余即选为候选概念。
4.如权利要求2所述的概念关系快速发现方法,其特征在于:
所述候选概念集饱和控制策略包括:
4a.搜索候选概念,若候选概念已存在于候选相关概念集中,对关联特征增量计算“伪相关度”,若候选概念为新增概念使用关联特征计算“伪相关度”;
4b.重新调整候选概念拉链顺序;
4c.滑动窗口置于拉链首部,判断元素数和窗口的大小,若元素数不大于窗口大小,重新执行候选概念选取策略,若元素数不小于窗口大小,则检查首尾候选概念“伪相关度”减幅,与幅度阈值比较;
4d.若“伪相关度”减幅小于幅度阈值,向拉链尾部滑动窗口进入步骤,若已到达拉链尾部,重新执行候选概念选取策略,否则返回4c,重复4c~4d,直到“伪相关度”减幅不小于幅度阈值;
4e.若“伪相关度”减幅不小于幅度阈值,候选相关概念集达到饱和,停止迭代搜索。
5.如权利要求1所述的概念关系快速发现方法,其特征在于:
所述构建特征向量正向索引包括:
对所有概念进行编号,对所有概念的语义特征按照权重降序,并将特征向量归一化为单位向量;
以“概念编号-特征向量”的键值关系构造特征向量正向索引。
6.如权利要求1所述的概念关系快速发现方法,其特征在于:
所述构建特征倒排索引包括:
将每个单位特征向量看作一个文档,以向量特征为倒排词条,索引拉链中的概念编号按照特征权重大小降序排列,构造特征倒排索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210125040.X/1.html,转载请声明来源钻瓜专利网。