[发明专利]基于word2vec的舆情倾向性分析方法在审
申请号: | 201710259721.8 | 申请日: | 2017-04-19 |
公开(公告)号: | CN107239439A | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 蒋昌俊;闫春钢;王鹏伟;何良华;罗裕隽 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 上海光华专利事务所31219 | 代理人: | 尹丽云 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 word2vec 舆情 倾向性 分析 方法 | ||
1.一种基于word2vec的舆情倾向性分析方法,其特征在于,包括:
词向量训练阶段:采集新闻数据,通过word2vec深度学习模型对所述新闻数据进行训练,获取词向量训练结果,所述词向量训练结果包括每个词语对应的向量表示;
关键句提取阶段:对所述待分析新闻数据进行预处理,所述预处理至少包括对待分析的整篇新闻数据进行断句和关键字提取,根据词向量训练结果计算待分析新闻数据中分句和关键词的匹配程度,获取与关键字匹配度最高的分句和该篇新闻数据的标题,并将其作为新闻关键句群;
倾向性判别阶段:比较预处理处理后的新闻关键句群中的词语和情感词的相似度,获取待分析新闻数据的情感评分,通过所述情感评分对新闻数据进行倾向性判别。
2.根据权利要求1所述的基于word2vec的舆情倾向性分析方法,其特征在于:通过词向量的余弦距离对词语相似度进行度量,所述词语相似度通过如下公式获取:
其中,Ai表示向量A的第i个分量的值,Bi表示向量B的第i个分量的值,n表示向量长度,θ表示向量A和向量B的夹角。
3.根据权利要求2所述的基于word2vec的舆情倾向性分析方法,其特征在于:所述预处理包括关键词提取处理、断句处理以及对关键句进行分词及去除停用词处理,通过预处理获取每篇新闻数据的关键词、分句和分词结果,并将每句分句由一个词语序列表示。
4.根据权利要求3所述的基于word2vec的舆情倾向性分析方法,其特征在于:所述关键句提取阶段具体包括:对待分析的整篇新闻数据进行断句和关键字提取,计算新闻分句中的每个词语的词语相似度,并获取其与关键词的余弦相似度的最大值,将所述最大值作为词语重要度评分,通过将分句中的所有词语的词语重要度评分进行累加并取平均值作为句子的重要度评分,提取句子的重要度评分中最高的句子以及该篇新闻数据的标题,将其作为新闻关键句群。
5.根据权利要求4所述的基于word2vec的舆情倾向性分析方法,其特征在于:根据语法规则对新闻关键句群的情感倾向进行加权处理,获取新闻关键句群中的关键句的情感值,并根据关键句权重和所述情感值获取待分析新闻全文的情感倾向值,通过所述情感倾向值对待分析新闻全文的倾向性进行判定;所述语法规则包括否定词,关联词、程度副词以及上下文语义信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710259721.8/1.html,转载请声明来源钻瓜专利网。