[发明专利]一种针对类别分布不平衡的舆论倾向性识别的分类方法有效
申请号: | 201811325887.6 | 申请日: | 2018-11-08 |
公开(公告)号: | CN109558587B | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 彭蓉;王卓;洪涛 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 类别 分布 不平衡 舆论 倾向性 识别 分类 方法 | ||
1.一种针对类别分布不平衡的舆论倾向性识别的分类方法,其特征在于,包括以下步骤:
步骤1:搜集与所关注舆论领域相关的高频词汇作为舆论热词,创建舆论高频词词库,并每日更新;
步骤2:从舆论信源中爬取待分析的评论数据集,将其分为训练集和测试集;
其中,对训练集和测试集的分割依据是评论发表者,即将一部分评论发表者发表的评论作为训练集,而将另一部分评论发表者发表的评论作为测试集;
步骤3:对训练集中舆论倾向性进行人工标注,根据倾向性类别对训练样本进行分类,统计训练集中不同倾向性类别下的样本量;若存在类别分布不平衡的现象,则采用相似度计算方法进行处理;以样本量最多的类别所拥有的样本量为标准,对于数据量比其少的类别,在舆论信源中爬取更多的评论数据,寻找与该类别特征文本相似的评论数据,补充入该类别训练集,直至所有类别训练集数据量相同;
其中,所述类别分布不平衡,是指不同类别的样本数量差距超过K%;值K的确定与当前分类问题的真实类别比例有关;以样本量最多的类别所拥有的样本量为标准,对于样本量少的类别,需要再次在舆论信源中使用爬虫爬取更多地评论数据,使用半监督的相似度计算方法,寻找与该类样本相似度超过阈值T的评论,补充为该类样本;其相似度Sim(o1,o2)如公式(1)所示:
其中,o1为训练集某类别样本的特征向量,o2为在舆论信源中新爬取的评论数据集文本的特征向量,o1i为训练集某类别特征文本的第i个特征,o2i为评论数据集文本的第i个特征,x为o1、o2向量化后的特征向量的总维度;
步骤4:对于训练集和测试集中的全部评论,以评论发表者为单位,使用时间敏感的加权函数和舆论热词敏感的加权函数,对其评论特征进行加权形成带权特征向量,以体现评论的时效性;
步骤5:利用每一类训练样本的带权特征向量,采用机器学习算法,训练算法模型;然后,利用训练好的模型对测试集中的评论数据进行分类,根据分类决定评论发表者的舆论倾向。
2.根据权利要求1所述的针对类别分布不平衡的舆论倾向性识别的分类方法,其特征在于:步骤1中,舆论高频词词库不仅记录高频词,而且记录高频词出现的时间、频率以及频率随时间的变化情况;舆论高频词的频率按照其在搜索引擎内搜索出的相关结果数计算。
3.根据权利要求1所述的针对类别分布不平衡的舆论倾向性识别的分类方法,其特征在于:步骤4中,采取时间敏感的加权函数,对从评论中抽取的特征向量进行加权,评论权值TimeWeight(Sc)计算公式为:
其中,Sc为某条评论,Tn为当前日期,Tc为评论c发表日期,Tn–Tc单位为天;在同一条评论中出现的特征词按公式(2)赋以相同的特征权重。
4.根据权利要求1所述的针对类别分布不平衡的舆论倾向性识别的分类方法,其特征在于:步骤4中,采用舆论热词敏感的加权函数,对从评论中抽取的特征向量进行加权,舆论高频词权重HotWordWeight(c)计算公式为:
其中,D为当前日期,Dc为热词c加入舆论高频词词库日期,Wt(c)是热词c当前的搜索结果数,Wb(c)是热词c在加入舆论高频词词库时的搜索结果数;当c不是高频词时,HotWordWeight(c)为0。
5.根据权利要求1所述的针对类别分布不平衡的舆论倾向性识别的分类方法,其特征在于:步骤4中,采用公式(4)计算评论特征词c的带权TF-IDF值WeightTFIDF(c);
WeightTFIDF(c)=(HotWordWeight(c)+TimeWeight(Sc))×TFIDF(c) (4)
其中,HotWordWeight(c)是词c的舆论高频词权重,TimeWeight(Sc)是词c所在评论句Sc的评论权值,TFIDF(c)是词c的TF-IDF值;
TF-IDF算法公式如下:
公式(5)中,TF(c)指词c在当前文本中的词频;N代表语料库中文本的总数,而N(c)代表语料库中包含词c的文本总数;
而后,将该类样本的所有特征词按带权TF-IDF值降序排列,选取与该类别相关程度最高的前L个词作为该类别样本的特征文本向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811325887.6/1.html,转载请声明来源钻瓜专利网。