[发明专利]基于权值比较和卡方分析的文本词间关联规则挖掘方法有效

申请号：	201811646484.1	申请日：	2018-12-30
公开（公告）号：	CN109684462B	公开（公告）日：	2022-12-06
发明（设计）人：	黄名选	申请（专利权）人：	广西财经学院
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/335
代理公司：	广西南宁公平知识产权代理有限公司 45104	代理人：	黄春莲
地址：	530000 广西壮族***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于权值比较和卡方分析的文本词间关联规则挖掘方法，首先预处理待挖掘的英文文本文档集，分别构建文本文档索引库和文本特征词库，再通过权值比较在文本文档索引库中挖掘文本特征词加权频繁项集，采用项集关联度以及候选项集的项目权值最大者或者最大项目权值对候选项集进行剪枝得到文本特征词有效加权频繁项集，构建有效加权频繁项集库，采用卡方分析‑置信度评价框架从有效加权频繁项集库中挖掘文本特征词加权关联规则模式，构建加权关联规则模式库。本发明能从海量的英文文本信息中挖掘出更实际的和隐含的文本特征词间关联的加权关联规则模式，该模式在信息检索、推荐系统等自然语言处理领域有着较高的应用价值和广阔的推广前景。
搜索关键词：	基于比较分析文本关联规则挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于权值比较和卡方分析的文本词间关联规则挖掘方法，其特征在于，包括下列步骤：步骤1：所述文本语种为英文，首先进行英文文本文档预处理，所述预处理为消除英文文本文档的停用词、提取英文文本文档词干特征词并计算特征词权值，构建文本文档索引库和特征词库；步骤2：挖掘文本特征词加权1_频繁项集L₁，具体步骤如下：(2‑1)从特征词库中提取特征词作为1_候选项集C₁；(2‑2)扫描文本文档索引库统计C₁的项集权值w[C₁]和总文档数n；(2‑3)按以下式(2)计算最小权值支持阈值MWS：MWS＝n×ms (2)式(2)中，所述ms为最小支持度阈值；n为文本文档索引库总文档数；(2‑4)如果w[C₁]≥MWS，则C₁就是文本特征词加权1_频繁项集L₁，添加到频繁项集集合FIS；步骤3：挖掘文本特征词有效加权k_频繁项集L_k，所述k≥2，具体步骤如下：(3‑1)采用Aproiri连接方法将文本特征词有效加权(k‑1)_频繁项集L_k‑1自连接得到多个文本特征词k_候选项集C_k＝(i₁,i₂,…,i_k)，所述k≥2；i₁,i₂,…,i_k分别为C_k的项目；(3‑2)扫描文本文档索引库，分别统计各C_k的项集权值w[C_k]和各C_k中最大的项目权值w_m，分别得到各C_k中最大的项目权值w_m对应的项目i_m，所述m∈(1,2,…,k)；(3‑3)如果所述项目i_m对应的1_项集(i_m)是非频繁的或者w_m<MWS，则剪枝对应的C_k；(3‑4)对于余下的各C_k，分别计算各C_k的项集关联度IRe(C_k)，如果C_k的项集权值w[C_k]≥MWS×k并且IRe(C_k)≥minIRe，那么，该C_k就是文本特征词有效加权k_频繁项集L_k，添加到频繁项集集合FIS；所述minIRe为最小项集关联度阈值；所述IRe(C_k)的计算公式如式(3)所示；式(3)中，w_min[(i_q)]和w_max[(i_p)]的含义如下：对于C_k＝(i₁,i₂,…i_k)，k_候选项集C_k的各个项目i₁,i₂,…,i_k分别单独作为1_项集时对应为(i₁),(i₂),…,(i_k)；w_min[(i_q)]和w_max[(i_p)]分别对应表示1_项集(i₁),(i₂),…,(i_k)中最小的1_项集权值和最大的1_项集权值；所述q∈(1,2,…,k)，p∈(1,2,…,k)；(3‑5)k加1后转入步骤(3‑1)继续循环，直到文本特征词有效加权k_频繁项集L_k为空集，文本特征词有效加权频繁项集挖掘结束，转入如下步骤4；步骤4：采用卡方分析‑置信度评价框架挖掘频繁项集集合FIS中每一个k_频繁项集L_k的加权关联规则模式，所述k≥2，具体方法如下：从频繁项集集合FIS中取出任意一个k_频繁项集L_k，按照下面步骤挖掘每个L_k的所有加权关联规则模式：(4‑1)构建L_k的所有真子集项集集合；(4‑2)从真子集项集集合中任意取出两个真子集项集T₁和T₂，且T₁∪T₂＝L_k，计算项集(T₁,T₂)的卡方值Chis(T₁,T₂)，计算公式如式(4)所示：式(4)中，w[T₁]为项集T₁在文本文档索引库中的项集权值，k₁为项集T₁的长度，w[T₂]为项集T₂在文本文档索引库中的项集权值，k₂为项集T₂的长度，n为文本文档索引库总文档数，w[(T₁,T₂)]为项集(T₁,T₂)在文本文档索引库中的项集权值，k_I为项集(T₁,T₂)的项目个数；(4‑3)如果Chis(T₁,T₂)>0，则分别按式(5)和式(6)计算加权关联规则置信度WConf(T₁→T₂)和WConf(T₂→T₁)；式(5)和(6)中，w[T₁]，k₁，w[T₂]，k₂，w[(T₁,T₂)]，k_I定义同式(4)；若WConf(T₁→T₂)≥最小置信度阈值mc，则关联规则T₁→T₂是强加权关联规则模式，添加到加权关联规则模式集合WAR；若WConf(T₂→T₁)≥mc，则T₂→T₁是强加权关联规则模式，添加到加权关联规则模式集合WAR；(4‑4)如果L_k的每个真子集项集当且仅当都被取出一次，那么本次L_k中的加权关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个L_k，并转入步骤(4‑1)进行另一个L_k的加权关联规则模式挖掘，否则，转入步骤(4‑2)再顺序执行各个步骤；若频繁项集集合FIS中的每个L_k当且仅当都被取出一次，则结束整个文本词间关联规则挖掘。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广西财经学院，未经广西财经学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811646484.1/，转载请声明来源钻瓜专利网。

上一篇：一种数据处理方法及装置
下一篇：基于权值比较与挖掘的跨语言译后前件扩展方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于权值比较和卡方分析的文本词间关联规则挖掘方法有效

专利文献下载