[发明专利]一种中文文本分类方法有效

申请号：	201910100095.7	申请日：	2019-01-31
公开（公告）号：	CN109902173B	公开（公告）日：	2020-10-27
发明（设计）人：	陈卓	申请（专利权）人：	青岛科技大学
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	杭州天昊专利代理事务所(特殊普通合伙) 33283	代理人：	赵志鹏
地址：	266061 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种中文文本分类方法，包括测试集文本D和训练集的文本类别集合C，将测试集文本D通过文本分类方法映射到训练集的文本类别集合C；其中D＝{d1,d2,…,dm}，其中C＝{c1,c2,…,cn}，m为文本数，n为文本类别数；本发明提供了建模更合理、分类准确率提高、召回率提高，整体精准快捷的一种中文文本分类方法。
搜索关键词：	一种中文文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种中文文本分类方法，其特征在于，包括测试集文本D和训练集的文本类别集合C，将测试集文本D通过文本分类方法映射到训练集的文本类别集合C；其中D＝{d₁,d₂,…,d_m}，其中C＝{c₁,c₂,…,c_n}，m为文本数，n为文本类别数，具体处理步骤如下：101)文本预处理步骤：将训练集的文本进行文本标记处理、分词、去除停用词，将处理后的文本通过统计做特征选择，进行特征降维得到训练集的文本类别集合C；其中，统计采用特征项t与类别C_i的相互关联性进行排序统计，具体包括四种统计：属于类别C_i且包含特征项t的文本数集A，不属于类别C_i但包含特征项t的文本数集B，属于类别C_i但不包含特征项t的文本数集C，不属于类别C_i且不包含特征项t的文本数集D；C_i表示分词后去除相近分词的文本类别集合中的其中一个类别，i为类别标识，其小于等于分词后的分词数量；特征项t为具体的分词；训练集中含有特征项t的文本总数集是A+B，不含有特征项t的文本总数集是C+D，类别C_i的文本数集是A+C，其他类别的文本数集是B+D，训练集文本总数集是N，且N＝A+B+C+D，特征项t的概率表示为由此可得，特征项t与类别C_i的关联性值为：若特征项t与类别C_i相互独立，AD‑CB＝0，有X²(t,c_i)＝0；如果X²(t,c_i)的值越大，就表明特征项t与类别C_i相互关系程度越大；AD表示根据特征项t正确判定文档属于C_i类的量化值，CB表示根据特征项t错误判定文档属于C_i类的量化值；在统计排序时以其平均值作为比较，其平均值为如下公式：统计排序以平均值从大到小进行排序，训练集的文本类别集合C从中，从大到小选取一定数量的特征项；102)分类器步骤：将步骤101)处理后的数据由文本分类器处理，具体公式如下：其中，P(C_i|D_j)表示训练集的文本D_j属于某一类别C_i的概率，文档D_j用一组该文档的分词{x₁,x₂,…,x_n}表示，即D_j＝{x₁,x₂,…,x_n}由于固定的特征词在文本集中出现的次数是常数，所以公式(3)中分母P(x₁,x₂,…,x_n)是常量，因此只需获得公式(3)中分子P(C_i)P(x_1,x₂,…,x_n|C_i)的值，就能判定不同j值时，不同P(C_i|D_j)值间的大小关系；因此公式(3)则最终可表示为：其中，x_j为文档D_j中的一个分词特征项，n为n个特征项；当某一特征项出现在该文本中，就置权重为1，若未出现就置权重为0，测试文本作为事件，并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件；用B_xt代表测试文档含有文本特征项t，则得到如下公式：在属于类C_i的情况下x_j发生的概率用P(x_j|C_i)表示，若特征项出现在测试文本中，则只需得到P(x_j|C_i)，否则需得到1‑P(x_j|C_i)；条件概率1‑P(x_j|C_i)的公式为：在训练集中，若类别C_i中的所有文本都不含有特征项x_j，则n_ij是0，从而P(x_j|C_i)的值是0，故需要采用加入平滑因子的方法，得如下公式：103)测试与评价步骤：评估分类器的准确率、召回率、F1值、宏平均，调整训练集的文本类别集合C；104)调整步骤：根据步骤103)的测评结果，调整选择的特征项，进行再次测试评估，直到达到预设效果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于青岛科技大学，未经青岛科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910100095.7/，转载请声明来源钻瓜专利网。

上一篇：案情文本分类方法、装置以及存储介质
下一篇：一种基于方面依赖的记忆网络的情感极性检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种中文文本分类方法有效

专利文献下载