[发明专利]基于动态项权值的中文特征词关联模式挖掘方法及其系统有效

专利信息
申请号: 201410427503.7 申请日: 2014-08-27
公开(公告)号: CN104317794B 公开(公告)日: 2017-10-24
发明(设计)人: 黄名选 申请(专利权)人: 广西财经学院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广西南宁明智专利商标代理有限责任公司45106 代理人: 黎明天
地址: 530003 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法及系统,利用中文文本预处理模块进行预处理,构建中文文本数据库和特征词项目库;利用中文特征词候选项集产生及其剪枝模块产生矩阵加权特征词候选项集,采用新的矩阵加权项集剪枝方法对候选项集进行剪枝,得到最终矩阵加权特征词候选项集;利用中文特征词频繁项集产生模块计算项集权值,由此得到特征词频繁项集;利用中文特征词关联模式产生及结果显示模块生成项集的全部真子集,通过其项集权值的简单计算和比较挖掘有效的关联规则模式,并显示给用户使用。本发明具有良好的剪枝性能,其候选项集和挖掘时间明显减少,挖掘效率极大提高,其模式运用于信息检索领域,可提高信息查询性能。
搜索关键词: 基于 动态 项权值 中文 特征 关联 模式 挖掘 方法 及其 系统
【主权项】:
一种基于动态项权值的矩阵加权中文特征词关联模式挖掘方法,其特征在于,包括如下步骤:(1)中文文本预处理:将待处理的中文文本信息数据进行分词,去除停用词、提取特征词及计算其权值,构建中文文本数据库和特征词项目库;(2)挖掘矩阵加权中文特征词频繁项集,包括以下步骤2.1和步骤2.2:(2.1)挖掘矩阵加权特征词候选1_项集和频繁1_项集,具体步骤按照2.1.1和2.1.2进行:(2.1.1)从特征词项目库中提取特征词候选1_项集,在中文文本数据库累加全部项目权值总和,累加矩阵加权中文特征词候选1_项集在中文文本信息数据库中的项集权值总和,计算特征词候选1_项集的最小频繁权值阈值,若其项集权值大于或者等于相应的最小频繁权值阈值,则该候选项集为频繁1_项集L1,将该L1加入到特征词频繁项集集合MWFIS;(2.1.2)在中文文本数据库中累加矩阵加权中文特征词候选1_项集的项集频度,计算候选1_项集的矩阵加权项集权值期望;(2.2)挖掘矩阵加权特征词候选k_项集和频繁k_项集,所述的k≥2,按照步骤2.2.1~2.2.8进行操作:(2.2.1)计算矩阵加权候选(k‑1)_项集的矩阵加权项集权值期望,删除矩阵加权候选(k‑1)_项集的项集权值小于其项集权值期望的候选(k‑1)_项集,得到新的矩阵加权特征词候选(k‑1)_项集集合;(2.2.2)将其项集频度不为0的矩阵加权特征词候选(k‑1)_项集进行Apriori连接产生矩阵加权特征词候选k_项集;(2.2.3)如果矩阵加权特征词候选k_项集不是空集,转入2.2.4步,否则,退出2.2步转入(3)步;(2.2.4)对于矩阵加权特征词候选k_项集,若存在一个其(k‑1)_项子集的项集权值小于其对应的项集权值期望,则将该候选k_项集删除,得到新的矩阵加权特征词候选k_项集集合;(2.2.5)在中文文本数据库中累加矩阵加权特征词候选k_项集的项集频度、项集权值及其矩阵加权项集权值期望;(2.2.6)删除其项集频度为0的矩阵加权特征词候选k_项集,得到新的矩阵加权特征词候选k_项集集合;(2.2.7)计算矩阵加权特征词候选k_项集Ck的最小频繁权值阈值mw(Ck),若矩阵加权候选项集的项集权值w(Ck)大于或者等于其最小频繁权值阈值mw(Ck),那么该特征词候选项集Ck是频繁的,加入到特征词频繁项集集合MWFIS;(2.2.8)将k的值加1,循环2.2.1~2.2.7步骤,直到Ck为空,则退出2.2步转入如下(3)步;(3)从矩阵加权特征词频繁项集集合MWFIS中挖掘矩阵加权特征词强关联规则模式,包括以下步骤:(3.1)对于矩阵加权特征词频繁项集集合MWFIS中每项特征词频繁项集Li,求出Li的全部真子集;(3.2)对于Li的真子集集合中任意两个真子集I1和I2,并且I1∪I2=Li,若(w12×k1)/(w1×k12)的值大于或者等于最小置信度阈值,则挖掘出矩阵加权特征词关联规则I1→I2;若(w12×k2)/(k12×w2)的值大于或者等于最小置信度阈值,则挖掘出矩阵加权特征词关联规则I2→I1;所述的k1、k2和k12分别为项集I1、I2和(I1,I2)的项目个数,w1、w2和w12分别为I1、I2和(I1,I2)的项集权值;(3.3)继续3.2步骤,直到Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤3.4;(3.4)继续3.1步骤,当MWFIS中每个Li都被取出一次,而且仅能取出一次,则退出(3)步;至此,矩阵加权特征词关联规则模式挖掘结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410427503.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top