[发明专利]一种基于互信息的文本分类的特征提取方法在审

专利信息
申请号: 201511018702.3 申请日: 2015-12-28
公开(公告)号: CN105701084A 公开(公告)日: 2016-06-22
发明(设计)人: 赵秉新;印鉴 申请(专利权)人: 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学
主分类号: G06F17/27 分类号: G06F17/27;G06K9/62
代理公司: 广州圣理华知识产权代理有限公司 44302 代理人: 顿海舟;王鸽
地址: 528300 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请公开了一种基于互信息的文本分类的特征提取方法。文本预处理工作主要包括去除文档标记、去停用词、分词、词性标注、统计词频及数据清洗等,以及根据特征算法提取特征词。文本分类阶段主要是对向量化的训练集通过支持向量积算法训练模型参数,从而对需要分类的文本进行机器学习分类。应用本申请方案,在文本分类的特征提取时,能够有效地避免将噪声特征纳入机器学习流程,提高了文本分类的精度,同时极大地缩减了特征库规模,降低了内存占用。
搜索关键词: 一种 基于 互信 文本 分类 特征 提取 方法
【主权项】:
一种基于互信息的文本分类的特征提取方法,其特征在于:包括以下步骤:(a)对训练文本进行预处理:建立停用词词库和训练文本集,将数据集中的训练文本进行分词,分词后根据停用词词库,过滤掉停用词,对分词后的文本进行词性标注;(b)对预处理后的文本进行特征提取:根据步骤(a)预处理后的文本,根据公式(1)和(2)计算剩下的词项和每个类别的互信息,公式(1)为:<mrow><mi>I</mi><mrow><mo>(</mo><mi>U</mi><mo>;</mo><mi>C</mi><mo>)</mo></mrow><mo>=</mo><munder><mo>&Sigma;</mo><mrow><msub><mi>e</mi><mi>t</mi></msub><mo>&Element;</mo><mo>{</mo><mn>1</mn><mo>,</mo><mn>0</mn><mo>}</mo></mrow></munder><munder><mo>&Sigma;</mo><mrow><msub><mi>e</mi><mi>c</mi></msub><mo>&Element;</mo><mo>{</mo><mn>1</mn><mo>,</mo><mn>0</mn><mo>}</mo></mrow></munder><mi>P</mi><mrow><mo>(</mo><mi>U</mi><mo>=</mo><msub><mi>e</mi><mi>t</mi></msub><mo>,</mo><mi>C</mi><mo>=</mo><msub><mi>e</mi><mi>c</mi></msub><mo>)</mo></mrow><msub><mi>log</mi><mn>2</mn></msub><mfrac><mrow><mi>P</mi><mrow><mo>(</mo><mi>U</mi><mo>=</mo><msub><mi>e</mi><mi>t</mi></msub><mo>,</mo><mi>C</mi><mo>=</mo><msub><mi>e</mi><mi>c</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>P</mi><mrow><mo>(</mo><mi>U</mi><mo>=</mo><msub><mi>e</mi><mi>t</mi></msub><mo>)</mo></mrow><mi>P</mi><mrow><mo>(</mo><mi>C</mi><mo>=</mo><msub><mi>e</mi><mi>c</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow>其中,U是词项,C是类别;U、C都是二值随机变量,当文档包含词项t时,U的取值为et=1,否则et=0;当文档属于类别c时,C的取值ec=1,否则ec=0,若使用最大似然估计时,上面的概率值都是运用阿里计算;于是实际计算公式如下:公式(2)为:<mfenced open = "" close = ""><mtable><mtr><mtd><mrow><mi>I</mi><mrow><mo>(</mo><mi>U</mi><mo>;</mo><mi>C</mi><mo>)</mo></mrow><mo>=</mo><mfrac><msub><mi>N</mi><mn>11</mn></msub><mi>N</mi></mfrac><msub><mi>log</mi><mn>2</mn></msub><mfrac><mrow><msub><mi>NN</mi><mn>11</mn></msub></mrow><mrow><msub><mi>N</mi><mn>1.</mn></msub><msub><mi>N</mi><mn>.1</mn></msub></mrow></mfrac><mo>+</mo><mfrac><msub><mi>N</mi><mn>01</mn></msub><mi>N</mi></mfrac><msub><mi>log</mi><mn>2</mn></msub><mfrac><mrow><msub><mi>NN</mi><mn>01</mn></msub></mrow><mrow><msub><mi>N</mi><mn>0.</mn></msub><msub><mi>N</mi><mn>.1</mn></msub></mrow></mfrac></mrow></mtd></mtr><mtr><mtd><mrow><mo>+</mo><mfrac><msub><mi>N</mi><mn>10</mn></msub><mi>N</mi></mfrac><msub><mi>log</mi><mn>2</mn></msub><mfrac><mrow><msub><mi>NN</mi><mn>10</mn></msub></mrow><mrow><msub><mi>N</mi><mn>1.</mn></msub><msub><mi>N</mi><mn>.0</mn></msub></mrow></mfrac><mo>+</mo><mfrac><msub><mi>N</mi><mn>00</mn></msub><mi>N</mi></mfrac><msub><mi>log</mi><mn>2</mn></msub><mfrac><mrow><msub><mi>NN</mi><mn>00</mn></msub></mrow><mrow><msub><mi>N</mi><mn>0.</mn></msub><msub><mi>N</mi><mn>.0</mn></msub></mrow></mfrac></mrow></mtd></mtr></mtable></mfenced>其中Nxy表示x=et和y=ec情况下对应的文档数目;对每一个类别计算其各个词项与其的互信息,并选取值最大的k个词项;将各个类别之间的重复词进行删除;筛选得出特征词;(c)对特征词赋予权值:经过步骤(b)得到特征词,计算每个特征词在文档中出现的频度,统计全部的文档数,包含每个特征词的文档数,根据公式(5)计算每个特征的权重,公式(3)为:TF‑IDF计算公式:d*log(N/t)其中为特征(词条)ti在文档d中的频度,N为全部的文档数量,为包含词条ti的文档数,为一常量,其值通常取0.01,为反文档频率,分母是归一化因子,基于训练文本集,利用特征评估函数TF‑IDF对每个特征词t进行评分;(d)SVM模型训练与预测把文档向量化,使之转化为词向量;向量的第一维表示文档的类别,第二维到第K维表示特征词以及其权重;将此向量投入到SVM模型中,训练出模型参数,之后进行文本预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201511018702.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top