[发明专利]一种基于互信息的文本分类的特征提取方法在审
申请号: | 201511018702.3 | 申请日: | 2015-12-28 |
公开(公告)号: | CN105701084A | 公开(公告)日: | 2016-06-22 |
发明(设计)人: | 赵秉新;印鉴 | 申请(专利权)人: | 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 广州圣理华知识产权代理有限公司 44302 | 代理人: | 顿海舟;王鸽 |
地址: | 528300 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互信 文本 分类 特征 提取 方法 | ||
1.一种基于互信息的文本分类的特征提取方法,其特征在于:包括以下步骤:
(a)对训练文本进行预处理:
建立停用词词库和训练文本集,将数据集中的训练文本进行分词,分词后根据停用词词 库,过滤掉停用词,对分词后的文本进行词性标注;
(b)对预处理后的文本进行特征提取:
根据步骤(a)预处理后的文本,根据公式(1)和(2)计算剩下的词项和每个类别的 互信息,
公式(1)为:
其中,U是词项,C是类别;U、C都是二值随机变量,当文档包含词项t时,U的取值 为et=1,否则et=0;当文档属于类别c时,C的取值ec=1,否则ec=0,
若使用最大似然估计时,上面的概率值都是运用阿里计算;于是实际计算公式如下:
公式(2)为:
其中Nxy表示x=et和y=ec情况下对应的文档数目;
对每一个类别计算其各个词项与其的互信息,并选取值最大的k个词项;
将各个类别之间的重复词进行删除;筛选得出特征词;
(c)对特征词赋予权值:
经过步骤(b)得到特征词,计算每个特征词在文档中出现的频度,统计全部的文档数, 包含每个特征词的文档数,根据公式(5)计算每个特征的权重,
公式(3)为:
TF-IDF计算公式:d*log(N/t)
其中为特征(词条)ti在文档d中的频度,N为全部的文档数量,为包含词条ti的文档数, 为一常量,其值通常取0.01,为反文档频率,分母是归一化因子,基于训练文本集,利用 特征评估函数TF-IDF对每个特征词t进行评分;
(d)SVM模型训练与预测
把文档向量化,使之转化为词向量;向量的第一维表示文档的类别,第二维到第K维 表示特征词以及其权重;将此向量投入到SVM模型中,训练出模型参数,之后进行文本预 测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511018702.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网络查重方法及系统
- 下一篇:基于单位磨耗的轮胎预计里程估算方法