[发明专利]一种针对类别分布不平衡的舆论倾向性识别的分类方法有效
申请号: | 201811325887.6 | 申请日: | 2018-11-08 |
公开(公告)号: | CN109558587B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 彭蓉;王卓;洪涛 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种针对训练样本类别分布不平衡的舆论倾向性识别方法。首先搜集与所关注舆论领域相关的词汇作为舆论热词创建词库;从舆论信源中爬取评论数据集,将其分为训练集和测试集。接着对训练集的舆论倾向性人工分类,针对类别不平衡的问题,采用自举式学习方法补齐处理。提取每一类训练样本特征,采用朴素贝叶斯、支持向量机、决策树等算法训练算法模型,用训练的模型对测试集数据分类,根据分类结果识别舆论倾向。自举式学习、特征向量构造和分类模型训练的方法均采用时间敏感的加权方法加权,使其反映的舆论倾向更具时效性。本发明解决了因训练数据失衡导致的分类不准确问题,提升了舆论倾向性识别的准确度和舆情分析的时效性。 | ||
搜索关键词: | 一种 针对 类别 分布 不平衡 舆论 倾向性 识别 分类 方法 | ||
【主权项】:
1.一种针对训练样本类别分布不平衡的舆论倾向性识别方法,其特征在于,包括以下步骤:步骤1:搜集与所关注舆论领域相关的高频词汇作为舆论热词,创建舆论高频词词库,并每日更新;步骤2:从舆论信源中爬取待分析的评论数据集,将其分为训练集和测试集;步骤3:对训练集中舆论倾向性进行人工标注,根据倾向性类别对训练样本进行分类,统计训练集中不同倾向性类别下的样本量;若存在类别分布不平衡的现象,则采用自举式学习的方法进行处理;以样本量最多的类别所拥有的样本量为标准,对于数据量比其少的类别,在舆论信源中爬取更多的评论数据,寻找与该类别特征文本相似的评论数据,补充入该类别训练集,直至所有类别训练集数据量相同;步骤4:对于训练集和测试集中的全部评论,以评论发表者为单位,使用时间敏感的加权函数和舆论热词敏感的加权函数,对其评论特征进行加权形成带权特征向量,以体现评论的时效性;步骤5:利用每一类训练样本的带权特征向量,采用机器学习算法,训练算法模型;然后,利用训练好的模型对测试集中的评论数据进行分类,根据分类决定评论发表者的舆论倾向。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811325887.6/,转载请声明来源钻瓜专利网。