[发明专利]一种基于互信息的文本分类的特征提取方法在审

申请号：	201511018702.3	申请日：	2015-12-28
公开（公告）号：	CN105701084A	公开（公告）日：	2016-06-22
发明（设计）人：	赵秉新;印鉴	申请（专利权）人：	广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06K9/62
代理公司：	广州圣理华知识产权代理有限公司 44302	代理人：	顿海舟;王鸽
地址：	528300 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请公开了一种基于互信息的文本分类的特征提取方法。文本预处理工作主要包括去除文档标记、去停用词、分词、词性标注、统计词频及数据清洗等，以及根据特征算法提取特征词。文本分类阶段主要是对向量化的训练集通过支持向量积算法训练模型参数，从而对需要分类的文本进行机器学习分类。应用本申请方案，在文本分类的特征提取时，能够有效地避免将噪声特征纳入机器学习流程，提高了文本分类的精度，同时极大地缩减了特征库规模，降低了内存占用。
搜索关键词：	一种基于互信文本分类特征提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于互信息的文本分类的特征提取方法，其特征在于：包括以下步骤：(a)对训练文本进行预处理：建立停用词词库和训练文本集，将数据集中的训练文本进行分词，分词后根据停用词词库，过滤掉停用词，对分词后的文本进行词性标注；(b)对预处理后的文本进行特征提取：根据步骤(a)预处理后的文本，根据公式(1)和(2)计算剩下的词项和每个类别的互信息，公式(1)为：

<mrow><mi>I</mi><mrow><mo>(</mo><mi>U</mi><mo>;</mo><mi>C</mi><mo>)</mo></mrow><mo>=</mo><munder><mo>Σ</mo><mrow><msub><mi>e</mi><mi>t</mi></msub><mo>&Element;</mo><mo>{</mo><mn>1</mn><mo>,</mo><mn>0</mn><mo>}</mo></mrow></munder><munder><mo>Σ</mo><mrow><msub><mi>e</mi><mi>c</mi></msub><mo>&Element;</mo><mo>{</mo><mn>1</mn><mo>,</mo><mn>0</mn><mo>}</mo></mrow></munder><mi>P</mi><mrow><mo>(</mo><mi>U</mi><mo>=</mo><msub><mi>e</mi><mi>t</mi></msub><mo>,</mo><mi>C</mi><mo>=</mo><msub><mi>e</mi><mi>c</mi></msub><mo>)</mo></mrow><msub><mi>log</mi><mn>2</mn></msub><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><mi>U</mi><mo>=</mo><msub><mi>e</mi><mi>t</mi></msub><mo>,</mo><mi>C</mi><mo>=</mo><msub><mi>e</mi><mi>c</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>P</mi><mrow><mo>(</mo><mi>U</mi><mo>=</mo><msub><mi>e</mi><mi>t</mi></msub><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mi>C</mi><mo>=</mo><msub><mi>e</mi><mi>c</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow>

其中，U是词项，C是类别；U、C都是二值随机变量，当文档包含词项t时，U的取值为et＝1，否则et＝0；当文档属于类别c时，C的取值ec＝1，否则ec＝0，若使用最大似然估计时，上面的概率值都是运用阿里计算；于是实际计算公式如下：公式(2)为：

<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>I</mi><mrow><mo>(</mo><mi>U</mi><mo>;</mo><mi>C</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>N</mi><mn>11</mn></msub><mi>N</mi></mfrac><msub><mi>log</mi><mn>2</mn></msub><mfrac><mrow><msub><mi>NN</mi><mn>11</mn></msub></mrow><mrow><msub><mi>N</mi><mn>1.</mn></msub><msub><mi>N</mi><mn>.1</mn></msub></mrow></mfrac><mo>+</mo><mfrac><msub><mi>N</mi><mn>01</mn></msub><mi>N</mi></mfrac><msub><mi>log</mi><mn>2</mn></msub><mfrac><mrow><msub><mi>NN</mi><mn>01</mn></msub></mrow><mrow><msub><mi>N</mi><mn>0.</mn></msub><msub><mi>N</mi><mn>.1</mn></msub></mrow></mfrac></mrow></mtd></mtr><mtr><mtd><mrow><mo>+</mo><mfrac><msub><mi>N</mi><mn>10</mn></msub><mi>N</mi></mfrac><msub><mi>log</mi><mn>2</mn></msub><mfrac><mrow><msub><mi>NN</mi><mn>10</mn></msub></mrow><mrow><msub><mi>N</mi><mn>1.</mn></msub><msub><mi>N</mi><mn>.0</mn></msub></mrow></mfrac><mo>+</mo><mfrac><msub><mi>N</mi><mn>00</mn></msub><mi>N</mi></mfrac><msub><mi>log</mi><mn>2</mn></msub><mfrac><mrow><msub><mi>NN</mi><mn>00</mn></msub></mrow><mrow><msub><mi>N</mi><mn>0.</mn></msub><msub><mi>N</mi><mn>.0</mn></msub></mrow></mfrac></mrow></mtd></mtr></mtable></mfenced>

其中N_xy表示x＝et和y＝ec情况下对应的文档数目；对每一个类别计算其各个词项与其的互信息，并选取值最大的k个词项；将各个类别之间的重复词进行删除；筛选得出特征词；(c)对特征词赋予权值：经过步骤(b)得到特征词，计算每个特征词在文档中出现的频度，统计全部的文档数，包含每个特征词的文档数，根据公式(5)计算每个特征的权重，公式(3)为：TF‑IDF计算公式：d*log(N/t)其中为特征(词条)t_i在文档d中的频度，N为全部的文档数量，为包含词条t_i的文档数，为一常量，其值通常取0.01，为反文档频率，分母是归一化因子，基于训练文本集，利用特征评估函数TF‑IDF对每个特征词t进行评分；(d)SVM模型训练与预测把文档向量化，使之转化为词向量；向量的第一维表示文档的类别，第二维到第K维表示特征词以及其权重；将此向量投入到SVM模型中，训练出模型参数，之后进行文本预测。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学，未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201511018702.3/，转载请声明来源钻瓜专利网。

上一篇：一种网络查重方法及系统
下一篇：基于单位磨耗的轮胎预计里程估算方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于互信息的文本分类的特征提取方法在审

专利文献下载