[发明专利]基于权值排序的关联模式挖掘和后件扩展的文本检索方法在审

专利信息
申请号: 201811416356.8 申请日: 2018-11-26
公开(公告)号: CN109582769A 公开(公告)日: 2019-04-05
发明(设计)人: 黄名选 申请(专利权)人: 广西财经学院
主分类号: G06F16/332 分类号: G06F16/332;G06F16/335;G06F16/953
代理公司: 广西南宁公平知识产权代理有限公司 45104 代理人: 黄春莲
地址: 530000 广西壮族*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了基于权值排序的关联模式挖掘和后件扩展的文本检索方法,首先将用户查询检索文本文档,构建初检用户相关反馈文档集,然后,将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,采用支持度‑置信度‑相关系数评价框架对初检用户相关反馈文档集挖掘特征词加权关联规则,所述特征词加权关联规则前件是原查询词项集合,而后件是由非查询词项组成,提取加权关联规则后件作为扩展词,扩展词与原查询词项组合为新查询再次检索文本文档得到最后检索结果并返回给用户。本发明通过项权值排序对项集进行剪枝,挖掘效率得到提高,采用关联规则后件扩展技术挖掘出与原查询相关的扩展词,提高和改善了文本信息检索性能。
搜索关键词: 后件 加权关联规则 查询词 特征词 文档集 排序 挖掘 关联模式 检索文本 文本检索 反馈 文档 文本信息检索 关联规则 技术挖掘 检索结果 用户查询 频度 新查询 支持度 置信度 剪枝 构建 前件 集合 查询 返回 融合
【主权项】:
1.基于权值排序的关联模式挖掘和后件扩展的文本检索方法,其特征在于,包括下列步骤:步骤1.用户查询首次检索文本文档集得到初检前列文档,用户对初检前列n篇文档进行相关性判断得到初检相关文档,构建初检用户相关反馈文档集,对所述初检用户相关反馈文档集进行预处理,构建文档索引库和特征词库;所述预处理方法为:去除停用词,提取文本特征词,计算特征词权值,最后构建文档索引库和特征词库;步骤2.将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,对初检用户相关反馈文档集挖掘那些含有原查询词项的特征词频繁项集,得到特征词频繁项集集合FIS;步骤3.采用置信度‑相关系数评价框架从特征词频繁项集集合FIS中挖掘特征词加权关联规则,得到特征词加权关联规则模式集合WAR,所述关联规则的前件必须由原查询词项组成;步骤4.从特征词加权关联规则模式集合WAR中提取规则后件Et作为扩展词,计算扩展词权值;步骤5.所述扩展词与原查询词组合为新查询再次检索文本文档得到最终检索结果并返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811416356.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top