[发明专利]基于权值排序的关联模式挖掘和后件扩展的文本检索方法在审

申请号：	201811416356.8	申请日：	2018-11-26
公开（公告）号：	CN109582769A	公开（公告）日：	2019-04-05
发明（设计）人：	黄名选	申请（专利权）人：	广西财经学院
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/335;G06F16/953
代理公司：	广西南宁公平知识产权代理有限公司 45104	代理人：	黄春莲
地址：	530000 广西壮族***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	后件加权关联规则查询词特征词文档集排序挖掘关联模式检索文本文本检索反馈文档文本信息检索关联规则技术挖掘检索结果用户查询频度新查询支持度置信度剪枝构建前件集合查询返回融合
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于权值排序的关联模式挖掘和后件扩展的文本检索方法，首先将用户查询检索文本文档，构建初检用户相关反馈文档集，然后，将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合，采用支持度‑置信度‑相关系数评价框架对初检用户相关反馈文档集挖掘特征词加权关联规则，所述特征词加权关联规则前件是原查询词项集合，而后件是由非查询词项组成，提取加权关联规则后件作为扩展词，扩展词与原查询词项组合为新查询再次检索文本文档得到最后检索结果并返回给用户。本发明通过项权值排序对项集进行剪枝，挖掘效率得到提高，采用关联规则后件扩展技术挖掘出与原查询相关的扩展词，提高和改善了文本信息检索性能。

技术领域

本发明属于信息检索领域，具体是基于权值排序的关联模式挖掘和后件扩展的文本检索方法。

背景技术

面对互联网海量信息资源，人们如何高效、准确地从信息的汪洋大海里找到更多所需的信息，一直是信息检索领域研究的热点问题。当前出现的web搜索引擎在一定程度上缓解了人们在互联网检索信息的困难，但是，目前的搜索引擎或者web信息检索系统往往是基于关键词机械式符号匹配的检索，很难避免信息过载和词不匹配等问题，例如，查询词是“计算机”，尽管“电脑”、“笔记本手提电脑”描述的是几乎相同的含义，但是，对于信息检索系统而言，“电脑”、“计算机”被认为是不同的检索词，这样，仅仅含有关键词“电脑”或者“笔记本手提电脑”，而不含“计算机”的文档由于词不匹配问题不会被检索出来。

发明内容

本发明提出了基于权值排序的关联模式挖掘和后件扩展的文本检索方法，适用于信息检索领域，应用于实际的搜索引擎和web信息检索系统，提高文本信息检索性能，解决当前信息检索中词不匹配问题。

本发明采用如下技术方案：

基于权值排序的关联模式挖掘和后件扩展的文本检索方法，包括下列步骤：

步骤1.用户查询首次检索文本文档集，构建初检用户相关反馈文档集，对所述初检用户相关反馈文档集进行预处理，具体步骤：

(1)用户查询首次检索文本文档集得到初检前列文档。

(2)用户对初检前列n篇文档进行相关性判断得到初检相关文档，构建初检用户相关反馈文档集。

(3)预处理初检用户相关反馈文档集，构建文档索引库和特征词库，然后转入步骤2。

初检用户相关反馈文档集预处理方法是：去除停用词，提取文本特征词，计算特征词权值，最后构建文档索引库和特征词库。

本发明提出初检用户相关反馈文档集中特征词权值w_ij的计算公式，如式(1)所示。

式(1)中，w_ij表示文档d_i中特征词t_j的权值，N表示初检用户相关反馈文档集的文档总数，df_j表示含有特征词t_j的文档数量，tf_j,i表示特征词t_j在文档d_i中的词频，max(tf_i)表示文档d_i中出现的最大词频。

式(1)表明，在初检用户相关反馈文档集中，含有某个特征词的初检用户相关反馈文档数量越多，则该特征词与原查询越相关，越重要，所述特征词的权值就越高。