[发明专利]基于权值比较和卡方分析的文本词间关联规则挖掘方法有效
申请号: | 201811646484.1 | 申请日: | 2018-12-30 |
公开(公告)号: | CN109684462B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/335 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于权值比较和卡方分析的文本词间关联规则挖掘方法,首先预处理待挖掘的英文文本文档集,分别构建文本文档索引库和文本特征词库,再通过权值比较在文本文档索引库中挖掘文本特征词加权频繁项集,采用项集关联度以及候选项集的项目权值最大者或者最大项目权值对候选项集进行剪枝得到文本特征词有效加权频繁项集,构建有效加权频繁项集库,采用卡方分析‑置信度评价框架从有效加权频繁项集库中挖掘文本特征词加权关联规则模式,构建加权关联规则模式库。本发明能从海量的英文文本信息中挖掘出更实际的和隐含的文本特征词间关联的加权关联规则模式,该模式在信息检索、推荐系统等自然语言处理领域有着较高的应用价值和广阔的推广前景。 | ||
搜索关键词: | 基于 比较 分析 文本 关联 规则 挖掘 方法 | ||
【主权项】:
1.基于权值比较和卡方分析的文本词间关联规则挖掘方法,其特征在于,包括下列步骤:步骤1:所述文本语种为英文,首先进行英文文本文档预处理,所述预处理为消除英文文本文档的停用词、提取英文文本文档词干特征词并计算特征词权值,构建文本文档索引库和特征词库;步骤2:挖掘文本特征词加权1_频繁项集L1,具体步骤如下:(2‑1)从特征词库中提取特征词作为1_候选项集C1;(2‑2)扫描文本文档索引库统计C1的项集权值w[C1]和总文档数n;(2‑3)按以下式(2)计算最小权值支持阈值MWS:MWS=n×ms (2)式(2)中,所述ms为最小支持度阈值;n为文本文档索引库总文档数;(2‑4)如果w[C1]≥MWS,则C1就是文本特征词加权1_频繁项集L1,添加到频繁项集集合FIS;步骤3:挖掘文本特征词有效加权k_频繁项集Lk,所述k≥2,具体步骤如下:(3‑1)采用Aproiri连接方法将文本特征词有效加权(k‑1)_频繁项集Lk‑1自连接得到多个文本特征词k_候选项集Ck=(i1,i2,…,ik),所述k≥2;i1,i2,…,ik分别为Ck的项目;(3‑2)扫描文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);(3‑3)如果所述项目im对应的1_项集(im)是非频繁的或者wm<MWS,则剪枝对应的Ck;(3‑4)对于余下的各Ck,分别计算各Ck的项集关联度IRe(Ck),如果Ck的项集权值w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词有效加权k_频繁项集Lk,添加到频繁项集集合FIS;所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(3)所示;
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别对应表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);(3‑5)k加1后转入步骤(3‑1)继续循环,直到文本特征词有效加权k_频繁项集Lk为空集,文本特征词有效加权频繁项集挖掘结束,转入如下步骤4;步骤4:采用卡方分析‑置信度评价框架挖掘频繁项集集合FIS中每一个k_频繁项集Lk的加权关联规则模式,所述k≥2,具体方法如下:从频繁项集集合FIS中取出任意一个k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有加权关联规则模式:(4‑1)构建Lk的所有真子集项集集合;(4‑2)从真子集项集集合中任意取出两个真子集项集T1和T2,且
T1∪T2=Lk,
计算项集(T1,T2)的卡方值Chis(T1,T2),计算公式如式(4)所示:
式(4)中,w[T1]为项集T1在文本文档索引库中的项集权值,k1为项集T1的长度,w[T2]为项集T2在文本文档索引库中的项集权值,k2为项集T2的长度,n为文本文档索引库总文档数,w[(T1,T2)]为项集(T1,T2)在文本文档索引库中的项集权值,kI为项集(T1,T2)的项目个数;(4‑3)如果Chis(T1,T2)>0,则分别按式(5)和式(6)计算加权关联规则置信度WConf(T1→T2)和WConf(T2→T1);![]()
式(5)和(6)中,w[T1],k1,w[T2],k2,w[(T1,T2)],kI定义同式(4);若WConf(T1→T2)≥最小置信度阈值mc,则关联规则T1→T2是强加权关联规则模式,添加到加权关联规则模式集合WAR;若WConf(T2→T1)≥mc,则T2→T1是强加权关联规则模式,添加到加权关联规则模式集合WAR;(4‑4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的加权关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(4‑1)进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(4‑2)再顺序执行各个步骤;若频繁项集集合FIS中的每个Lk当且仅当都被取出一次,则结束整个文本词间关联规则挖掘。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811646484.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法及装置
- 下一篇:基于权值比较与挖掘的跨语言译后前件扩展方法