[发明专利]弹幕情感分析方法及装置有效
申请号: | 201910661588.8 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110569354B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 贾璐;田冉 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/30;G06F40/247;H04N21/235 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 马瑞 |
地址: | 100193 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 弹幕 情感 分析 方法 装置 | ||
1.一种弹幕情感分析方法,其特征在于,包括:
获取预设时间段内的弹幕文本;
将所述弹幕文本与弹幕情感词典进行匹配,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量;
对所述弹幕文本中所有情感词的词向量求和,获得弹幕文本向量,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型;
其中,所述预设的情感分析模型,根据带有情感类型标签的弹幕文本样本进行训练后得到;
将所述弹幕文本与弹幕情感词典进行匹配之前,还包括:
根据基础情感词典以及弹幕常用情感词,扩充情感词典,获得所述弹幕情感词典;
所述弹幕常用情感词包括直播平台表情包情感词及弹幕用词频率达到预设次数的情感词;
所述根据基础情感词典以及弹幕常用情感词,扩充情感词典,包括:
将弹幕常用情感词中任一情感词作为种子词,获取所述种子词的相关词列表;
从种子词的相关词列表中,选取相关性大于预设阈值,且相关性大小降序排列后前预设个数的情感词;
对所述预设个数的情感词,按相关性大小降序,依次进行相关词列表的搜索,并从相关词列表中,选取相关性大于预设阈值,且相关性大小降序排列后前预设个数的情感词,直至获得的总情感词数量满足预设条件。
2.根据权利要求1所述的弹幕情感分析方法,其特征在于,所述将匹配得到的情感词进行文本向量化,包括:
将匹配得到的情感词输入至训练后的Skip-gram模型,获得所述情感词的词向量。
3.根据权利要求2所述的弹幕情感分析方法,其特征在于,将匹配得到的情感词输入至训练后的Skip-gram模型之前,还包括:
获取多个样本弹幕文本;
将所述样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练,直至所述skip-gram模型训练完成。
4.根据权利要求3所述的弹幕情感分析方法,其特征在于,所述获取多个样本弹幕文本之后,还包括:
对所述样本弹幕文本进行数据清洗;
相应地,将所述样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练,具体为:
将数据清洗后的样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练;
其中,所述数据清洗包括:统一英文字母大小写,统一标点符号格式以及统一同义词、谐音词。
5.根据权利要求3所述的弹幕情感分析方法,其特征在于,所述获取多个样本弹幕文本之后,还包括:
对所述样本弹幕文本进行文本预处理;
相应地,将所述样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练,具体为:
将文本预处理后的样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练;
其中,所述文本预处理包括:分词处理和去停用词处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910661588.8/1.html,转载请声明来源钻瓜专利网。