[发明专利]基于word2vec的舆情倾向性分析方法在审
申请号: | 201710259721.8 | 申请日: | 2017-04-19 |
公开(公告)号: | CN107239439A | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 蒋昌俊;闫春钢;王鹏伟;何良华;罗裕隽 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 上海光华专利事务所31219 | 代理人: | 尹丽云 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 word2vec 舆情 倾向性 分析 方法 | ||
技术领域
本发明涉及计算机应用领域,尤其涉及一种基于word2vec的舆情倾向性分析方法。
背景技术
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。新闻在传播的过程中,越来越多的倾向性披露在公众面前,这些正面积极的或负面消极的情感倾向潜移默化地影响着人们对时事动态的看法,影响了舆论的走势。舆情倾向性分析研究正是在这种形势下产生的,旨在通过对新闻文本进行分析,挖掘新闻潜在的倾向性,希望有助于公众了解最新社会动态,获悉时事热点和舆论舆情的最新发展和走势;希望有助于监管部门及时发现社会问题,构建文明和谐的舆论环境;希望有助于公司、企业或机关事业单位的决策者正确把握当前形势并制定相应的策略。
目前主流的新闻搜索引擎都只是针对关键字对新闻进行检索,想要获得新闻的文本倾向性只能通过人工方法自行检索和识别,但每天互联网上更新的新闻数量十分庞大,通过人工进行新闻的倾向性检索耗费大量的人力和物力,而且效率低下。舆情倾向性分析的实质是篇章级文本倾向性分析,由于新闻报道的篇幅较长,其中有些句子和对阐明主题贡献较大,有些和主题关系不大,如果直接将整篇文章进行倾向性分析可能会影响算法的判别效果。
目前,使用最广泛的文档表示方法都是基于词袋模型。词袋模型将文档看成是词的集合,在该集合中,每个词是相互独立的,不考虑词的顺序、语法和语义信息,它将一篇文档表示成与训练词汇集合相同维度的向量,向量中对应位置的值表示该文档中该词出现的次数。词袋模型存在几个主要问题:1)样本空间的维数过高,增加计算的复杂度,易造成“维数灾难”现象;2)词袋模型不考虑词与词之间的语义关系,如“电脑”和“计算机”实际上是同一种东西,但通过词袋模型比较它们的相似度为0,并且现有技术中的评价对象的粒度是词语级的,无法做到篇章级的倾向性判断,因此,亟需一种新的技术手段,能够实现对篇章级的新闻文本的情感倾向性以及情感强度的判别。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种基于word2vec的舆情倾向性分析方法,以解决上述技术问题,通过以word2vec为基础,抽取新闻文本中的关键句,比较词汇之间的相似度,并结合人工制定的语法规则,首先对每句关键句的情感倾向性进行打分,再通过加权归一化方法实现对新闻文本的情感倾向性以及情感强度的判别。
本发明提供的基于word2vec的舆情倾向性分析方法,包括:
词向量训练阶段:采集新闻数据,通过word2vec深度学习模型对所述新闻数据进行训练,获取词向量训练结果,所述词向量训练结果包括每个词语对应的向量表示;
关键句提取阶段:对所述待分析新闻数据进行预处理,所述预处理至少包括对待分析的整篇新闻数据进行断句和关键字提取,根据词向量训练结果计算待分析新闻数据中分句和关键词的匹配程度,获取与关键字匹配度最高的分句和该篇新闻数据的标题,并将其作为新闻关键句群;
倾向性判别阶段:比较预处理处理后的新闻关键句群中的词语和情感词的相似度,获取待分析新闻数据的情感评分,通过所述情感评分对新闻数据进行倾向性判别。
进一步,通过词向量的余弦距离对词语相似度进行度量,所述词语相似度通过如下公式获取:
其中,Ai表示向量A的第i个分量的值,Bi表示向量B的第i个分量的值,n表示向量长度,θ表示向量A和向量B的夹角。
进一步,所述预处理包括关键词提取处理、断句处理以及对关键句进行分词及去除停用词处理,通过预处理获取每篇新闻数据的关键词、分句和分词结果,并将每句分句由一个词语序列表示。
进一步,所述关键句提取阶段具体包括:对待分析的整篇新闻数据进行断句和关键字提取,计算新闻分句中的每个词语的词语相似度,并获取其与关键词的余弦相似度的最大值,将所述最大值作为词语重要度评分,通过将分句中的所有词语的词语重要度评分进行累加并取平均值作为句子的重要度评分,提取句子的重要度评分中最高的句子以及该篇新闻数据的标题,将其作为新闻关键句群。
进一步,根据语法规则对新闻关键句群的情感倾向进行加权处理,获取新闻关键句群中的关键句的情感值,并根据关键句权重和所述情感值获取待分析新闻全文的情感倾向值,通过所述情感倾向值对待分析新闻全文的倾向性进行判定;所述语法规则包括否定词,关联词、程度副词以及上下文语义信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710259721.8/2.html,转载请声明来源钻瓜专利网。