[发明专利]一种不良文本信息过滤用特征选择方法在审
申请号: | 201810196195.X | 申请日: | 2018-03-09 |
公开(公告)号: | CN108376130A | 公开(公告)日: | 2018-08-07 |
发明(设计)人: | 闫茂德;赵文;柯伟;陈宇;李超飞;田野;林海 | 申请(专利权)人: | 长安大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710064 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种不良文本信息过滤用特征选择方法,先从类别语料库中提取所有特征项,构建初始特征项集合;然后根据包含特征项tj对不良类别中任一类别Ci的χ2统计量χ2(tj,Ci)、改良后的逆文档频率IDF、逆类别频率ICF和逆不良文档频率IHDF计算得到分类特征权重值CTW值,利用分类特征权重值CTW值作为特征选择的依据,对特征项进行筛选;最后将步骤S2筛选的初始特征项集合中的特征项按照CTW值的大小由高到低排序,选取a个特征项组成最终特征项集合。本发明解决了χ2统计量特征选择方法未考虑到特征项在类内类间分布情况的问题,同时解决了各类别数据集倾斜的问题,进而提高了不良文本信息过滤的效果。 | ||
搜索关键词: | 特征项 特征选择 文本信息过滤 分类特征 集合 统计量 权重 筛选 逆文档频率 不良类别 类别频率 文档频率 最终特征 数据集 语料库 构建 排序 改良 | ||
【主权项】:
1.一种不良文本信息过滤用特征选择方法,其特征在于,先从类别语料库中提取所有特征项,构建初始特征项集合;然后根据包含特征项tj对不良类别中任一类别Ci的χ2统计量χ2(tj,Ci)、改良后的逆文档频率IDF、逆类别频率ICF和逆不良文档频率IHDF计算得到分类特征权重值CTW值,利用分类特征权重值CTW值作为特征选择的依据,对特征项进行筛选;最后将筛选的初始特征项集合中的特征项按照CTW值的大小由高到低排序,选取a个特征项组成最终特征项集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长安大学,未经长安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810196195.X/,转载请声明来源钻瓜专利网。