[发明专利]基于权值比较和卡方分析的文本词间关联规则挖掘方法有效
申请号: | 201811646484.1 | 申请日: | 2018-12-30 |
公开(公告)号: | CN109684462B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/335 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 比较 分析 文本 关联 规则 挖掘 方法 | ||
本发明公开了基于权值比较和卡方分析的文本词间关联规则挖掘方法,首先预处理待挖掘的英文文本文档集,分别构建文本文档索引库和文本特征词库,再通过权值比较在文本文档索引库中挖掘文本特征词加权频繁项集,采用项集关联度以及候选项集的项目权值最大者或者最大项目权值对候选项集进行剪枝得到文本特征词有效加权频繁项集,构建有效加权频繁项集库,采用卡方分析‑置信度评价框架从有效加权频繁项集库中挖掘文本特征词加权关联规则模式,构建加权关联规则模式库。本发明能从海量的英文文本信息中挖掘出更实际的和隐含的文本特征词间关联的加权关联规则模式,该模式在信息检索、推荐系统等自然语言处理领域有着较高的应用价值和广阔的推广前景。
技术领域
本发明属于文本挖掘领域,具体是基于权值比较和卡方分析的文本词间关联规则挖掘方法。
背景技术
文本特征词关联规则模式挖掘主要是用来发现和分析文本特征词之间的各种关联,以揭示特征词间内在的联系,在自然语言处理领域得到了广泛的应用,例如,文本特征词关联规则模式可以用于信息检索领域实现查询扩展,从而提高信息检索性能,也可以用于推荐系统,提高推荐系统的准确性,等等。现有文本特征词关联规则挖掘方法主要有2大类:一类是无加权关联规则挖掘方法,另一类是加权关联规则挖掘方法。
无加权关联规则挖掘方法(R.Agrawal,T.Imielinski,A.Swami.Miningassociation rules between sets of items in large database[C].Proceeding of1993 ACM SIGMOD International Conference on Management of Data,WashingtonD.C.,1993,(5):207-216.)的基本思想是将项集在事务文档中发生的概率作为支持度,只考虑项集出现的频度,不考虑项集权值,导致冗余关联规则增多,挖掘效率不高。
加权关联规则挖掘方法克服了无加权关联规则挖掘方法的缺陷,在挖掘关联规则时考虑了项权值。加权关联规则挖掘方法分为基于项权值固定的加权关联规则挖掘方法和基于项权值变化的加权关联规则挖掘方法。
基于项权值固定的加权关联规则挖掘方法(C.H.Cai,A.da,W.C.Fu,et al.MiningAssociation Rules with Weighted Items[C].Proceedings of IEEE Internationaldatabase Engineering and Application Symposiums,1998:68-77.)考虑了项目权值,但是,项目权值是固定的,并且将项目权值总和与无加权支持度的乘积作为项集支持度。
基于项权值变化的加权关联规则挖掘方法在挖掘项集和关联规则时考虑项权值,特别是考虑项集权值随事务文档不同而发生变化的情况,项集支持度有2种计算方法,一种是将特征词项目平均权值与无加权支持度的乘积作为完全加权项集支持度(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.;黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.),另一种是以项集在事务数据库中项集权值总和占事务数据库中所有项目权值总和的百分比作为项集支持度(周秀梅,黄名选.基于项权值变化的矩阵加权关联规则挖掘[J].计算机应用研究,2015,32(10):2918-2923.)。
当前,关联规则模式经典的评价方式普遍采用支持度-置信度评价框架,这个评价框架存在的缺陷是:冗余项集和关联规则以及虚假关联规则模式比较多。鉴于此,有必要研究更实际、更合理的评价方法。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811646484.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法及装置
- 下一篇:基于权值比较与挖掘的跨语言译后前件扩展方法