[发明专利]一种针对类别分布不平衡的舆论倾向性识别的分类方法有效

专利信息
申请号: 201811325887.6 申请日: 2018-11-08
公开(公告)号: CN109558587B 公开(公告)日: 2021-04-16
发明(设计)人: 彭蓉;王卓;洪涛 申请(专利权)人: 武汉大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289;G06K9/62
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 魏波
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 类别 分布 不平衡 舆论 倾向性 识别 分类 方法
【说明书】:

发明公开了一种针对训练样本类别分布不平衡的舆论倾向性识别方法。首先搜集与所关注舆论领域相关的词汇作为舆论热词创建词库;从舆论信源中爬取评论数据集,将其分为训练集和测试集。接着对训练集的舆论倾向性人工分类,针对类别不平衡的问题,采用自举式学习方法补齐处理。提取每一类训练样本特征,采用朴素贝叶斯、支持向量机、决策树等算法训练算法模型,用训练的模型对测试集数据分类,根据分类结果识别舆论倾向。自举式学习、特征向量构造和分类模型训练的方法均采用时间敏感的加权方法加权,使其反映的舆论倾向更具时效性。本发明解决了因训练数据失衡导致的分类不准确问题,提升了舆论倾向性识别的准确度和舆情分析的时效性。

技术领域

本发明属于自然语言处理与机器学习技术领域,涉及一种利用机器学习算法进行舆论倾向性分析的方法,具体涉及一种针对训练样本类别分布不平衡的舆论倾向性识别方法。

背景技术

当下互联网普及率快速增长,互联网上更新的新闻数量十分庞大,随之带来的舆论影响也十分巨大,舆论倾向性分析技术正是在这种形势下诞生的,旨在对互联网上产生的舆情评论者所持的倾向性态度和态度变化进行及时甄别,从而帮助监管部门及时发现舆情变化,构建文明和谐的舆论环境。

使用通用的机器学习算法在进行舆论倾向性分析时,往往会因为训练数据的类不平衡、文本发布时效性、舆论时效性等问题,导致倾向性识别效果与实际倾向出现较大偏差。目前,尚未提出有效的解决方案。

发明内容

为了解决上述技术问题,本发明开拓性地提出一种针对训练样本类别分布不平衡的舆论倾向性识别方法,在普通的机器学习算法基础上,引入了半监督的训练集扩展方法、时间敏感和和舆论高频词敏感的特征加权方法,能够提高类不平衡状态下的舆论倾向性识别正确率。

1.一种针对训练样本类别分布不平衡的舆论倾向性识别方法,其特征在于,包括以下步骤:

步骤1:搜集与所关注舆论领域相关的高频词汇作为舆论热词,创建舆论高频词词库,并每日更新;

步骤2:从舆论信源中爬取待分析的评论数据集,将其分为训练集和测试集;

步骤3:对训练集中舆论倾向性进行人工标注,根据倾向性类别对训练样本进行分类,统计训练集中不同倾向性类别下的样本量。若存在类别分布不平衡的现象,则采用自举式学习的方法进行处理。以样本量最多的类别所拥有的样本量为标准,对于数据量比其少的类别,在舆论信源中爬取更多的评论数据,利用半监督的相似度计算方法寻找与该类别特征文本相似的评论数据,补充入该类别训练集,直至所有类别训练集数据量相同;相似度计算时评论特征向量的提取方法与步骤4相同。

步骤4:对于训练集和测试集中的全部评论,以评论发表者为单位,使用时间敏感的加权函数和舆论热词敏感的加权函数,对其评论特征进行加权形成带权特征向量,以体现评论的时效性;

步骤5:利用每一类训练样本的带权特征向量,采用朴素贝叶斯,支持向量机,决策树,多层感知分类器等机器学习算法,训练算法模型;然后,利用训练好的模型对测试集中的评论数据进行分类,根据分类决定评论发表者的舆论倾向。

作为优选,步骤1中,舆论高频词词库不仅记录高频词,而且记录高频词出现的时间、频率以及频率随时间的变化情况。舆论高频词的频率按照其在百度搜索引擎内特定时间点搜索出的相关结果数计算。

作为优选,步骤2中,对训练集和测试集的分割依据是评论发表者,即将一部分评论发表者发表的评论作为训练集,而将另一部分评论发表者发表的评论作为测试集。建议选择数据集中90%的评论发表者发表的评论作为训练集,将剩余10%的评论作为测试集。这一比例可以根据需要,动态调整。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811325887.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top