[发明专利]基于权值排序的关联模式挖掘和后件扩展的文本检索方法在审
申请号: | 201811416356.8 | 申请日: | 2018-11-26 |
公开(公告)号: | CN109582769A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/335;G06F16/953 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 后件 加权关联规则 查询词 特征词 文档集 排序 挖掘 关联模式 检索文本 文本检索 反馈 文档 文本信息检索 关联规则 技术挖掘 检索结果 用户查询 频度 新查询 支持度 置信度 剪枝 构建 前件 集合 查询 返回 融合 | ||
1.基于权值排序的关联模式挖掘和后件扩展的文本检索方法,其特征在于,包括下列步骤:
步骤1.用户查询首次检索文本文档集得到初检前列文档,用户对初检前列n篇文档进行相关性判断得到初检相关文档,构建初检用户相关反馈文档集,对所述初检用户相关反馈文档集进行预处理,构建文档索引库和特征词库;所述预处理方法为:去除停用词,提取文本特征词,计算特征词权值,最后构建文档索引库和特征词库;
步骤2.将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,对初检用户相关反馈文档集挖掘那些含有原查询词项的特征词频繁项集,得到特征词频繁项集集合FIS;
步骤3.采用置信度-相关系数评价框架从特征词频繁项集集合FIS中挖掘特征词加权关联规则,得到特征词加权关联规则模式集合WAR,所述关联规则的前件必须由原查询词项组成;
步骤4.从特征词加权关联规则模式集合WAR中提取规则后件Et作为扩展词,计算扩展词权值;
步骤5.所述扩展词与原查询词组合为新查询再次检索文本文档得到最终检索结果并返回给用户。
2.如权利要求1所述的基于权值排序的关联模式挖掘和后件扩展的文本检索方法,其特征在于,所述步骤1计算特征词权值的计算公式如式(1)所示:
式(1)中,wij表示文档di中特征词tj的权值,N表示初检用户相关反馈文档集的文档总数,dfj表示含有特征词tj的文档数量,tfj,i表示特征词tj在文档di中的词频,max(tfi)表示文档di中出现的最大词频。
3.如权利要求1所述的基于权值排序的关联模式挖掘和后件扩展的文本检索方法,其特征在于,所述步骤2将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,对初检用户相关反馈文档集挖掘那些含有原查询词项的特征词频繁项集,具体步骤如下:
(1)挖掘特征词1_频繁项集L1,具体为如下3个步骤:
(1.1)从特征词库中提取特征词作为1_候选项集C1;
(1.2)扫描文档索引库以便统计文档索引库中文档总数n和累加所有特征词权值的总和W,统计特征词1_候选项集C1在文档索引库的权值及其出现次数计算C1的加权支持度wSup(C1),如式(2)所示:
(1.3)如果wSup(C1)≥ms,ms为最小支持度阈值,则C1就是特征词1_频繁项集L1,添加到特征词频繁项集集合FIS;
(2)构建权值排序k_候选项集,对k_候选项集进行剪枝,挖掘出特征词k_频繁项集,所述k≥2,具体为如下8个步骤:
(2.1)采用Aproiri连接方法将特征词(k-1)_频繁项集Lk-1进行自连接得到特征词k_候选项集Ck,所述k≥2;
(2.2)如果k=2,删除没有包含原查询词项的特征词k_候选项集Ck,将包含有原查询词项的Ck留下,然后,转入步骤(2.3);如果k>2,则直接转入步骤(2.3);
(2.3)统计特征词k_候选项集Ck在文档索引库的项权值(w1,w2,…,wk),并且排降序,使得w1≥w2≥…≥wk,这样就得到特征词权值排序k_候选项集Ck=(i1,i2,…,ik);
(2.4)对权值排序k_候选项集Ck=(i1,i2,…,ik)的子项集C1=(i1),C12=(i1,i2),C123=(i1,i2,i3),…,C123…k-1=(i1,i2,…,ik-1)进行考察,如果存在某个子项集是非频繁的,则该项集Ck是非频繁的,剪除该项集Ck;
(2.5)对于余下的权值排序k_候选项集Ck,如果则该项集Ck是非频繁的,剪除该项集Ck,所述为权值排序k_候选项集Ck在文档索引库中的出现次数,所述n为文档索引库中的文档总数,所述W为在文档索引库中累加所有特征词权值的总和,所述ms为最小支持度阈值;
(2.6)对剪枝后余下的权值排序k_候选项集Ck,根据权值排序k_候选项集Ck在文档索引库中的出现次数和所述Ck的权值计算Ck的加权支持度wSup(Ck),如式(3)所示:
式(3)中,所述n为文档索引库中的文档总数,所述W为在文档索引库中累加所有特征词权值的总和,为权值排序k_候选项集Ck的各个项权值(w1,w2,…,wk)之和,所述为权值排序k_候选项集Ck的项集长度,所述项集长度是指该项集所包含的项个数;
(2.7)如果wSup(Ck)≥ms,ms为最小支持度阈值,则该权值排序k_候选项集Ck就是特征词k_频繁项集Lk,添加到特征词频繁项集集合FIS;
(2.8)若特征词k_频繁项集Lk为空集,则特征词频繁项集挖掘结束,转入步骤3,否则,k加1后转入步骤(2.1)继续循环。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811416356.8/1.html,转载请声明来源钻瓜专利网。