[发明专利]一种财经新闻中企业主体的情感分析方法和系统在审
申请号: | 201910590710.7 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110298403A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 高正杰;郭刚;郭敏;陈涵昱;喻娇;贺晶莹 | 申请(专利权)人: | 郭刚 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/951;G06F17/27 |
代理公司: | 北京劲创知识产权代理事务所(普通合伙) 11589 | 代理人: | 王闯 |
地址: | 273400 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻数据 企业主体 分类 财经新闻 情感分析 预测模型 采集 分类准确率 存储结构 规则模板 记忆网络 模型设计 模型训练 情感标签 人工成本 文本表示 预测 制定 维护 | ||
本发明涉及一种财经新闻中企业主体的情感分析方法和系统,所述方法包括以下步骤:S1:采集新闻数据,根据所述采集的新闻数据进行模型训练,得到分类预测模型;S2:将待分类的新闻数据输入所述分类预测模型,对所述待分类的新闻数据中的企业主体的情感标签进行分类预测。本发明基于更先进的文本表示模型BERT和双存储结构的记忆网络模型设计而得,分类准确率更高,同时不需要领域专家制定规则模板提取额外的特征,减少了人工成本,便于维护。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种财经新闻中企业主体的情感分析方法和系统。
背景技术
伴随着互联网技术的高速发展,新闻的生成速度远超过人类手工可以处理的速度,因此利用计算机对海量数据进行挖掘处理成为必要。在金融领域中,财经新闻对于评测企业的信用风险有十分重要的作用,通过对财经新闻中企业主体的情感进行分类(通常为正面、负面和中性三类),可以有效了解到企业的正面或负面报道,从而为进一步调整企业的信用风险评级提供了基础。
在财经新闻中,针对特定企业主体进行情感分析的方法有三大类:基于情感词典的方法、基于机器学习的方法和基于深度学习的方法。
基于情感词典的方法通过语言学专家人工构建和维护由情感词汇组成的词典,称之为情感词典,对新闻中出现的情感词进行综合评估,从而确定文本的情感倾向(正面、负面和中性)。这类方法需要耗费大量的人力物力,需要领域专家进行长期维护,且在财经新闻中对于情感倾向的表达更多借助的是非情感词汇,即“同比增长”、“同比下降”等字样进行表达,这导致情感词典的方式在财经新闻这样一个特定领域中的分类效果不好。
基于机器学习的方法是通过领域专家制定一些规则模板提取出文本中依赖于企业主体的特征集合,然后将特征用于训练分类器,常用的分类器有支持向量机、朴素贝叶斯、最大熵等等。这类方法需要人工构建大量的特征工程,不同的特征选择方法会造成结果的差异较大,在不同的数据集上也可能有差异很大的表现,模型的迁移效果和泛化能力均面临较大困难。另外,传统方法多采用词袋模型,无法表示词语间的关系以及上下文信息。对于不同领域的任务,例如电影、旅游等领域,均需要领域专家重新制定规则和计算机从业人员重新调试模型。
基于深度学习的方法是目前使用得最广泛的方法,其利用多层神经网络自动学习和提取文本的高层语义特征。通过词嵌入(Word Embedding)的方式对原文和企业主体名称进行词向量表示,然后借助于神经网络模型,例如循环神经网络(RNN),卷积神经网络(CNN),记忆网络(Memory Network,MemNet),注意力机制(Attention Mechanism)等,对企业主体及其所处上下文进行关系建模,提取其情感倾向特征,然后利用softmax进行分类。
基于深度学习的方法是目前工业界和学术界使用与研究的主流方法。对于细粒度情感分类问题,目前的研究主要还停留在句子级别,而针对财经新闻中企业主体的情感分类任务,属于是篇章级的细粒度情感分类问题,仍少有研究人员涉足。通常在处理时,会将整个文章的情感倾向作为企业主体的情感倾向,显然这是十分不合理的。当一篇文章中既报道了公司A,又报道了公司B,甚至报道了更多公司的时候,他们的情感倾向完全可以是不一样的,例如该文章对于A来说为负面新闻,对于B来说是正面新闻,对于C来说是中性新闻,若是仅仅都分类为负面,或都为正面,都是不合理的分类结果,所以进一步深层次挖掘新闻中企业主体对应的情感倾向是非常有必要的。
相比于句子级别任务中待分类目标主体通常只会出现一次,财经新闻中企业的名称会反复出现,其情感倾向的表达往往需要对全文有综合的考虑,对于深度学习模型而言需要具备更加长程的记忆依赖效果。以前常用的长短期记忆网络(LSTM)虽然在循环神经网络(RNN)的基础上通过门控机制有效改善了RNN梯度消失的问题,但是其记忆效果的提升也是十分有限的,涉及到情感分析这样的自然语言推理任务的时候,就显得颇为无力。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郭刚,未经郭刚许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910590710.7/2.html,转载请声明来源钻瓜专利网。