[发明专利]一种中文文本分类方法有效

专利信息
申请号: 201910100095.7 申请日: 2019-01-31
公开(公告)号: CN109902173B 公开(公告)日: 2020-10-27
发明(设计)人: 陈卓 申请(专利权)人: 青岛科技大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 杭州天昊专利代理事务所(特殊普通合伙) 33283 代理人: 赵志鹏
地址: 266061 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数;本发明提供了建模更合理、分类准确率提高、召回率提高,整体精准快捷的一种中文文本分类方法。
搜索关键词: 一种 中文 文本 分类 方法
【主权项】:
1.一种中文文本分类方法,其特征在于,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数,具体处理步骤如下:101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词,将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C;其中,统计采用特征项t与类别Ci的相互关联性进行排序统计,具体包括四种统计:属于类别Ci且包含特征项t的文本数集A,不属于类别Ci但包含特征项t的文本数集B,属于类别Ci但不包含特征项t的文本数集C,不属于类别Ci且不包含特征项t的文本数集D;Ci表示分词后去除相近分词的文本类别集合中的其中一个类别,i为类别标识,其小于等于分词后的分词数量;特征项t为具体的分词;训练集中含有特征项t的文本总数集是A+B,不含有特征项t的文本总数集是C+D,类别Ci的文本数集是A+C,其他类别的文本数集是B+D,训练集文本总数集是N,且N=A+B+C+D,特征项t的概率表示为由此可得,特征项t与类别Ci的关联性值为:若特征项t与类别Ci相互独立,AD‑CB=0,有X2(t,ci)=0;如果X2(t,ci)的值越大,就表明特征项t与类别Ci相互关系程度越大;AD表示根据特征项t正确判定文档属于Ci类的量化值,CB表示根据特征项t错误判定文档属于Ci类的量化值;在统计排序时以其平均值作为比较,其平均值为如下公式:统计排序以平均值从大到小进行排序,训练集的文本类别集合C从中,从大到小选取一定数量的特征项;102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,具体公式如下:其中,P(Ci|Dj)表示训练集的文本Dj属于某一类别Ci的概率,文档Dj用一组该文档的分词{x1,x2,…,xn}表示,即Dj={x1,x2,…,xn}由于固定的特征词在文本集中出现的次数是常数,所以公式(3)中分母P(x1,x2,…,xn)是常量,因此只需获得公式(3)中分子P(Ci)P(x1,x2,…,xn|Ci)的值,就能判定不同j值时,不同P(Ci|Dj)值间的大小关系;因此公式(3)则最终可表示为:其中,xj为文档Dj中的一个分词特征项,n为n个特征项;当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件;用Bxt代表测试文档含有文本特征项t,则得到如下公式:在属于类Ci的情况下xj发生的概率用P(xj|Ci)表示,若特征项出现在测试文本中,则只需得到P(xj|Ci),否则需得到1‑P(xj|Ci);条件概率1‑P(xj|Ci)的公式为:在训练集中,若类别Ci中的所有文本都不含有特征项xj,则nij是0,从而P(xj|Ci)的值是0,故需要采用加入平滑因子的方法,得如下公式:103)测试与评价步骤:评估分类器的准确率、召回率、F1值、宏平均,调整训练集的文本类别集合C;104)调整步骤:根据步骤103)的测评结果,调整选择的特征项,进行再次测试评估,直到达到预设效果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910100095.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top