[发明专利]一种基于术语频率和卡方统计的文本分类特征选择方法有效
申请号: | 201410629761.3 | 申请日: | 2014-11-10 |
公开(公告)号: | CN104346459B | 公开(公告)日: | 2017-10-27 |
发明(设计)人: | 马廷淮;金传鑫;侯荣涛;田伟;薛羽 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京众联专利代理有限公司32206 | 代理人: | 顾进,叶涓涓 |
地址: | 210044 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 术语 频率 统计 文本 分类 特征 选择 方法 | ||
1.一种基于术语频率和卡方统计的文本分类特征选择方法,其特征在于,包括如下步骤:
步骤(1),对语料库数据集进行预处理;
步骤(2),对经过步骤(1)处理得到的数据集中的对象根据向量空间模型均表示为向量形式,得到数据对象向量集合D={d1,d2,...dN},类标签集合C={c1,c2,...c|C|},dj表示语料库数据集中的一个文档(1≤j≤N),ck表示语料库数据集中的一个类,1≤k≤|C|,N表示语料库数据集中文档的数量,|C|表示语料库数据集中类别的数量;
步骤(3),计算术语ti在文本分类ck中的最大术语频率和平均术语频率
步骤(4),通过下式计算术语ti在ck类中的分布差异度:
其中,Nk表示ck类中文档的数量,tfij为术语频率,α表示一个很小的实数;
步骤(5),利用步骤(3)和步骤(4)得到的最大术语频率及分布差异度,通过下式计算该术语ti在ck类中的权重:
其中,
上式中,A表示包含术语ti并且属于ck类的文档数量;B表示包含术语ti但不属于ck类的文档数量;C表示不包含术语ti但属于Ck类的文档数量;D表示不包含术语ti并且不属于ck类的文档数量;
步骤(6),计算得到该术语ti在每个类中的权重,通过下式取权重最大值为术语ti在语料库数据集中的权重:
步骤(7),计算得到每一个术语在语料库数据集中的权重,并降序排列,选出值最大的前N个术语作为特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410629761.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种阻燃砂砾墙纸印刷工艺
- 下一篇:一种热敏用工业预涂原纸的制造方法