[发明专利]基于权值排序的关联模式挖掘和后件扩展的文本检索方法在审
申请号: | 201811416356.8 | 申请日: | 2018-11-26 |
公开(公告)号: | CN109582769A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/335;G06F16/953 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 后件 加权关联规则 查询词 特征词 文档集 排序 挖掘 关联模式 检索文本 文本检索 反馈 文档 文本信息检索 关联规则 技术挖掘 检索结果 用户查询 频度 新查询 支持度 置信度 剪枝 构建 前件 集合 查询 返回 融合 | ||
本发明公开了基于权值排序的关联模式挖掘和后件扩展的文本检索方法,首先将用户查询检索文本文档,构建初检用户相关反馈文档集,然后,将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,采用支持度‑置信度‑相关系数评价框架对初检用户相关反馈文档集挖掘特征词加权关联规则,所述特征词加权关联规则前件是原查询词项集合,而后件是由非查询词项组成,提取加权关联规则后件作为扩展词,扩展词与原查询词项组合为新查询再次检索文本文档得到最后检索结果并返回给用户。本发明通过项权值排序对项集进行剪枝,挖掘效率得到提高,采用关联规则后件扩展技术挖掘出与原查询相关的扩展词,提高和改善了文本信息检索性能。
技术领域
本发明属于信息检索领域,具体是基于权值排序的关联模式挖掘和后件扩展的文本检索方法。
背景技术
面对互联网海量信息资源,人们如何高效、准确地从信息的汪洋大海里找到更多所需的信息,一直是信息检索领域研究的热点问题。当前出现的web搜索引擎在一定程度上缓解了人们在互联网检索信息的困难,但是,目前的搜索引擎或者web信息检索系统往往是基于关键词机械式符号匹配的检索,很难避免信息过载和词不匹配等问题,例如,查询词是“计算机”,尽管“电脑”、“笔记本手提电脑”描述的是几乎相同的含义,但是,对于信息检索系统而言,“电脑”、“计算机”被认为是不同的检索词,这样,仅仅含有关键词“电脑”或者“笔记本手提电脑”,而不含“计算机”的文档由于词不匹配问题不会被检索出来。
发明内容
本发明提出了基于权值排序的关联模式挖掘和后件扩展的文本检索方法,适用于信息检索领域,应用于实际的搜索引擎和web信息检索系统,提高文本信息检索性能,解决当前信息检索中词不匹配问题。
本发明采用如下技术方案:
基于权值排序的关联模式挖掘和后件扩展的文本检索方法,包括下列步骤:
步骤1.用户查询首次检索文本文档集,构建初检用户相关反馈文档集,对所述初检用户相关反馈文档集进行预处理,具体步骤:
(1)用户查询首次检索文本文档集得到初检前列文档。
(2)用户对初检前列n篇文档进行相关性判断得到初检相关文档,构建初检用户相关反馈文档集。
(3)预处理初检用户相关反馈文档集,构建文档索引库和特征词库,然后转入步骤2。
初检用户相关反馈文档集预处理方法是:去除停用词,提取文本特征词,计算特征词权值,最后构建文档索引库和特征词库。
本发明提出初检用户相关反馈文档集中特征词权值wij的计算公式,如式(1)所示。
式(1)中,wij表示文档di中特征词tj的权值,N表示初检用户相关反馈文档集的文档总数,dfj表示含有特征词tj的文档数量,tfj,i表示特征词tj在文档di中的词频,max(tfi)表示文档di中出现的最大词频。
式(1)表明,在初检用户相关反馈文档集中,含有某个特征词的初检用户相关反馈文档数量越多,则该特征词与原查询越相关,越重要,所述特征词的权值就越高。
步骤2.将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,对初检用户相关反馈文档集挖掘那些含有原查询词项的特征词频繁项集,具体步骤如下:
(1)挖掘特征词1_频繁项集L1,具体为如下3个步骤:
(1.1)从特征词库中提取特征词作为1_候选项集C1;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811416356.8/2.html,转载请声明来源钻瓜专利网。