[发明专利]基于权值排序的关联模式挖掘和后件扩展的文本检索方法在审

申请号：	201811416356.8	申请日：	2018-11-26
公开（公告）号：	CN109582769A	公开（公告）日：	2019-04-05
发明（设计）人：	黄名选	申请（专利权）人：	广西财经学院
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/335;G06F16/953
代理公司：	广西南宁公平知识产权代理有限公司 45104	代理人：	黄春莲
地址：	530000 广西壮族***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	后件加权关联规则查询词特征词文档集排序挖掘关联模式检索文本文本检索反馈文档文本信息检索关联规则技术挖掘检索结果用户查询频度新查询支持度置信度剪枝构建前件集合查询返回融合
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于权值排序的关联模式挖掘和后件扩展的文本检索方法，其特征在于，包括下列步骤：

步骤1.用户查询首次检索文本文档集得到初检前列文档，用户对初检前列n篇文档进行相关性判断得到初检相关文档，构建初检用户相关反馈文档集，对所述初检用户相关反馈文档集进行预处理，构建文档索引库和特征词库；所述预处理方法为：去除停用词，提取文本特征词，计算特征词权值，最后构建文档索引库和特征词库；

步骤2.将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合，对初检用户相关反馈文档集挖掘那些含有原查询词项的特征词频繁项集，得到特征词频繁项集集合FIS；

步骤3.采用置信度-相关系数评价框架从特征词频繁项集集合FIS中挖掘特征词加权关联规则，得到特征词加权关联规则模式集合WAR，所述关联规则的前件必须由原查询词项组成；

步骤4.从特征词加权关联规则模式集合WAR中提取规则后件E_t作为扩展词，计算扩展词权值；

步骤5.所述扩展词与原查询词组合为新查询再次检索文本文档得到最终检索结果并返回给用户。

2.如权利要求1所述的基于权值排序的关联模式挖掘和后件扩展的文本检索方法，其特征在于，所述步骤1计算特征词权值的计算公式如式(1)所示：

式(1)中，w_ij表示文档d_i中特征词t_j的权值，N表示初检用户相关反馈文档集的文档总数，df_j表示含有特征词t_j的文档数量，tf_j,_i表示特征词t_j在文档d_i中的词频，max(tf_i)表示文档d_i中出现的最大词频。

3.如权利要求1所述的基于权值排序的关联模式挖掘和后件扩展的文本检索方法，其特征在于，所述步骤2将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合，对初检用户相关反馈文档集挖掘那些含有原查询词项的特征词频繁项集，具体步骤如下：

(1)挖掘特征词1_频繁项集L₁，具体为如下3个步骤：

(1.1)从特征词库中提取特征词作为1_候选项集C₁；

(1.2)扫描文档索引库以便统计文档索引库中文档总数n和累加所有特征词权值的总和W，统计特征词1_候选项集C₁在文档索引库的权值及其出现次数计算C₁的加权支持度wSup(C₁)，如式(2)所示：

(1.3)如果wSup(C₁)≥ms，ms为最小支持度阈值，则C₁就是特征词1_频繁项集L₁，添加到特征词频繁项集集合FIS；

(2)构建权值排序k_候选项集，对k_候选项集进行剪枝,挖掘出特征词k_频繁项集，所述k≥2，具体为如下8个步骤：

(2.1)采用Aproiri连接方法将特征词(k-1)_频繁项集L_k-1进行自连接得到特征词k_候选项集C_k，所述k≥2；

(2.2)如果k＝2，删除没有包含原查询词项的特征词k_候选项集C_k，将包含有原查询词项的C_k留下，然后，转入步骤(2.3)；如果k>2，则直接转入步骤(2.3)；

(2.3)统计特征词k_候选项集C_k在文档索引库的项权值(w₁,w₂,…,w_k)，并且排降序，使得w₁≥w₂≥…≥w_k，这样就得到特征词权值排序k_候选项集C_k＝(i₁,i₂,…,i_k)；

(2.4)对权值排序k_候选项集C_k＝(i₁,i₂,…,i_k)的子项集C₁＝(i₁)，C₁₂＝(i₁,i₂)，C₁₂₃＝(i₁,i₂,i₃)，…，C₁₂₃…_k-1＝(i₁,i₂,…,i_k-1)进行考察，如果存在某个子项集是非频繁的，则该项集C_k是非频繁的，剪除该项集C_k；

(2.5)对于余下的权值排序k_候选项集C_k，如果则该项集C_k是非频繁的，剪除该项集C_k，所述为权值排序k_候选项集C_k在文档索引库中的出现次数，所述n为文档索引库中的文档总数，所述W为在文档索引库中累加所有特征词权值的总和，所述ms为最小支持度阈值；

(2.6)对剪枝后余下的权值排序k_候选项集C_k，根据权值排序k_候选项集C_k在文档索引库中的出现次数和所述C_k的权值计算C_k的加权支持度wSup(C_k)，如式(3)所示：

式(3)中，所述n为文档索引库中的文档总数，所述W为在文档索引库中累加所有特征词权值的总和，为权值排序k_候选项集C_k的各个项权值(w₁,w₂,…,w_k)之和，所述为权值排序k_候选项集C_k的项集长度，所述项集长度是指该项集所包含的项个数；

(2.7)如果wSup(C_k)≥ms，ms为最小支持度阈值，则该权值排序k_候选项集C_k就是特征词k_频繁项集L_k，添加到特征词频繁项集集合FIS；

(2.8)若特征词k_频繁项集L_k为空集，则特征词频繁项集挖掘结束，转入步骤3，否则，k加1后转入步骤(2.1)继续循环。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广西财经学院，未经广西财经学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811416356.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载