[发明专利]一种弹幕文本中情感词的分类方法、装置及存储介质有效
申请号: | 202011418248.1 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112507115B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 吴渝;于磊;杨杰;张运凯 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/289 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 李朝虎 |
地址: | 400000 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 弹幕 文本 情感 分类 方法 装置 存储 介质 | ||
1.一种弹幕文本中情感词的分类方法,其特征在于,包括:
步骤S1、对Python爬取到的弹幕数据进行预处理,得到待分类弹幕数据;
步骤S2、判断待分类弹幕数据中是否包含情感词;
步骤S3、若步骤S2的判定结果为:不包含,则利用GRU分类器对待分类弹幕数据进行分类得到分类结果;
步骤S4、若步骤S2的判定结果为:包含,则利用构建的弹幕情感分类模型对待分类弹幕数据进行分类得到情感分类结果;
所述弹幕情感分类模型的构建和分类过程为:
步骤A、先构造弹幕文本领域的七维弹幕情感词典,并在所述七维弹幕情感词典基础上,构造文本情感计算分类器计算弹幕数据中的情感词的情感总值;
步骤B、采用模型融合的集成学习策略构造弹幕情感分类模型,将文本情感计算分类器、朴素贝叶斯分类器和GRU分类器作为基分类器;
步骤C、将待分类弹幕数据分为训练集和验证集,并用训练集分别对各个基分类器进行训练,得到拟合好的各基分类器;
步骤D、将所述验证集输入到拟合好的各基分类器中,并调整相应参数,得到验证后的各基分类器,最终构造出弹幕情感分类模型;
步骤E、将待分类弹幕数据输入到验证后的弹幕情感分类模型中,根据各个基学习器得到的结果进行投票融合输出最终情感分类结果;
步骤A中根据所述构造的文本情感计算分类器计算弹幕数据情感词的情感总值的过程包括:
步骤1、将弹幕数据中的情感词按照所述七维弹幕情感词典所在的对应维度进行分类,得到对应维度的弹幕文本;
步骤2、判断所述弹幕文本是否存在情感反转,计算所述弹幕文本对应维度的文本情感值;
步骤3、通过弹幕数据的其他数据维度计算弹幕文本的强度增益;
步骤4、将所述文本情感值和弹幕文本的强度增益进行累加得到对应维度下的弹幕文本的情感总值;
步骤5、重复步骤1-步骤4计算出弹幕文本在七维情感下每个维度的情感总值,按照积极类别情感总值和消极类别情感总值之间的大小关系确定最终情感类别。
2.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,步骤S1中所述弹幕数据预处理具体包括:
将弹幕数据维度分为八个维度,包括弹幕距视频开始后出现时间、弹幕种类、弹幕字体大小、弹幕字体颜色、弹幕发送时间戳、弹幕池类型、发送者加密后id、弹幕id;
利用先验知识对采集到的弹幕数据进行打标,将弹幕数据分为积极类别和消极类别,并且将数据中的异常值、空值进行删除,得到带有情感词标注的正向情感和负向情感弹幕文本数据作为待分类弹幕数据。
3.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,步骤A中所述七维弹幕情感词典的构造具体包括:
步骤A1、将大连理工大学所提出的中文情感词汇本体库作为所述七维弹幕情感词典的核心,从七个情感维度来描述情感,包括乐、好、怒、哀、惧、恶和惊,乐和好属于正向情感,而其他五个则属于负向情感,每种情感的强度都分为1、3、4、7、9五档,1代表强度最小,而9代表强度最大;
步骤A2、对弹幕数据进行分析,得到弹幕流行词词典,同时,从弹幕文本以及互联网常用颜符号中收集231个符号作为颜符号词典;
步骤A3、根据大连理工大学情感词库的等级评判标准,对流行情感词和颜符号进行权重打分,将中文情感词汇本体库、弹幕流行词词典和颜符号词典汇总到一起,得到所述七维弹幕情感词典。
4.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,所述得到对应维度的弹幕情感词文本的过程具体包括:分别对爬取到的每条弹幕数据进行分词处理,去除无用停用词,得到每条弹幕数据的词语集合W{w1,w2,w3,…,wn},W表示该条弹幕数据的词语集合,wi表示该条弹幕数据中第i个词语;
用所述七维弹幕情感词典对所述每条弹幕数据的词语集合进行词语匹配,得到Sc是W的子集,表示W中所属情感维度c的情感词集合,其中c∈{乐,好,怒,哀,惧,恶,惊}共七维情感,而表示所属情感维度c的第i个情感词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011418248.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种库位确定方法、装置及电子设备
- 下一篇:一种冷凝压力控制系统及方法