[发明专利]一种中文文本分类方法有效
申请号: | 201910100095.7 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109902173B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 陈卓 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 杭州天昊专利代理事务所(特殊普通合伙) 33283 | 代理人: | 赵志鹏 |
地址: | 266061 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d |
||
搜索关键词: | 一种 中文 文本 分类 方法 | ||
【主权项】:
1.一种中文文本分类方法,其特征在于,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数,具体处理步骤如下:101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词,将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C;其中,统计采用特征项t与类别Ci的相互关联性进行排序统计,具体包括四种统计:属于类别Ci且包含特征项t的文本数集A,不属于类别Ci但包含特征项t的文本数集B,属于类别Ci但不包含特征项t的文本数集C,不属于类别Ci且不包含特征项t的文本数集D;Ci表示分词后去除相近分词的文本类别集合中的其中一个类别,i为类别标识,其小于等于分词后的分词数量;特征项t为具体的分词;训练集中含有特征项t的文本总数集是A+B,不含有特征项t的文本总数集是C+D,类别Ci的文本数集是A+C,其他类别的文本数集是B+D,训练集文本总数集是N,且N=A+B+C+D,特征项t的概率表示为
由此可得,特征项t与类别Ci的关联性值为:
若特征项t与类别Ci相互独立,AD‑CB=0,有X2(t,ci)=0;如果X2(t,ci)的值越大,就表明特征项t与类别Ci相互关系程度越大;AD表示根据特征项t正确判定文档属于Ci类的量化值,CB表示根据特征项t错误判定文档属于Ci类的量化值;在统计排序时以其平均值作为比较,其平均值为如下公式:
统计排序以平均值从大到小进行排序,训练集的文本类别集合C从中,从大到小选取一定数量的特征项;102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,具体公式如下:
其中,P(Ci|Dj)表示训练集的文本Dj属于某一类别Ci的概率,文档Dj用一组该文档的分词{x1,x2,…,xn}表示,即Dj={x1,x2,…,xn}由于固定的特征词在文本集中出现的次数是常数,所以公式(3)中分母P(x1,x2,…,xn)是常量,因此只需获得公式(3)中分子P(Ci)P(x1,x2,…,xn|Ci)的值,就能判定不同j值时,不同P(Ci|Dj)值间的大小关系;因此公式(3)则最终可表示为:
其中,xj为文档Dj中的一个分词特征项,n为n个特征项;当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件;用Bxt代表测试文档含有文本特征项t,则得到如下公式:
在属于类Ci的情况下xj发生的概率用P(xj|Ci)表示,若特征项出现在测试文本中,则只需得到P(xj|Ci),否则需得到1‑P(xj|Ci);条件概率1‑P(xj|Ci)的公式为:
在训练集中,若类别Ci中的所有文本都不含有特征项xj,则nij是0,从而P(xj|Ci)的值是0,故需要采用加入平滑因子的方法,得如下公式:
103)测试与评价步骤:评估分类器的准确率、召回率、F1值、宏平均,调整训练集的文本类别集合C;104)调整步骤:根据步骤103)的测评结果,调整选择的特征项,进行再次测试评估,直到达到预设效果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910100095.7/,转载请声明来源钻瓜专利网。