[发明专利]一种基于文本数据的金融舆情识别方法及系统有效
申请号: | 202110551833.7 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113495959B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 刘卫国;徐博瑞;张桐;张晨 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 祖之强 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 数据 金融 舆情 识别 方法 系统 | ||
本公开提供了一种基于文本数据的金融舆情识别方法及系统,获取新闻文本数据以及评论文本数据;对获取的文本数据进行预处理;根据预处理后的文本数据和预设Bert模型,提取新闻文本数据和评论文本数据中的表征向量集合;根据得到的表征向量集合和预设DE‑Former模型,得到舆情分类结果;本公开通过对客观新闻报道以及市场用户舆论的结合,从语义层次上实现了对于金融市场舆论情感的更准确判断。
技术领域
本公开涉及文本自然语言处理技术领域,特别涉及一种基于文本数据的金融舆情识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
伴随着5G时代的到来,来自于互联网的信息也与日俱增,越来越多的人选择在微博、推特等社交平台或股吧、同花顺等专业金融社区上表达自己的观点和情感。这些网民之间,互动交流所产生的网络舆论蕴含着非常丰富并且主观的民众意愿和网民情绪,深入挖掘这些隐藏在互联网中的潜在信息有利于各个行业的发展。在金融领域中,固步自封已不再成为可能,只有与时俱进,才能有利于自身的发展。社交平台上人们互相交换信息,汲取对自己有利的金融信息,完善自己的投资决策,实现了信息互补,更是推动了整个金融业的发展。
在早期,社交平台还未兴起之时,人们只能通过仅有的渠道进行信息交换,故投资者在信息交换过程中所表达出的情感是非常有限的。能够被利用的情感表达少之又少,通过金融舆情来进行股票投资决策的网民则更在少数。随着网络的发展,社交平台的兴起,人们更多的倾向于将主观情感融入到信息中,将这些信息发送到社交平台上与其他金融投资者进行交流。交流信息的这些主观语句中蕴含着情感,情感是金融投资者观点更强烈的表达。在金融投资领域当中,越来越多的投资者选择在互联网中获取与股票相关的有用的信息,并且在各种社区平台上发表自己的独特见解,随着越来越多的网民不断的参与进来,网民之间的相互情绪感染和互相模仿,会形成一种具有群体性以及代表性的投资者情绪,这种投资者情绪对股票市场的影响力非常大,股票市场归根结底是离不开人的参与的,因此通过基于金融相关的网络舆论和新闻来捕获投资者的情绪对金融舆情进行判断是非常有价值的。
发明人发现,通过互联网上的信息,来捕获投资者情绪的研究,只是使用了新闻的标题,不关注真正体现投资者情绪的主观数据,缺乏对新闻的文本内容以及帖子的文本内容的处理和分析。造成这一现象的原因是在自然语言处理问题领域之前的语言模型都是单向的,建模的时候只考虑了语言单个方向上的依赖关系,这极大地限制了预训练中可选的网络结构,没有深入到文本的语义层面;同时,相比于新闻标题或者评论标题,新闻或评论的具体内容中杂质较多,提取有效的内容信息存在难度。
发明内容
为了解决现有技术的不足,本公开提供了一种基于文本数据的金融舆情识别方法及系统,通过对客观新闻报道以及市场用户舆论的结合,从语义层次上实现了对于金融市场舆论情感的更准确判断。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种基于文本数据的金融舆情识别方法。
一种基于文本数据的金融舆情识别方法,包括以下过程:
获取新闻文本数据以及评论文本数据;
对获取的文本数据进行预处理;
根据预处理后的文本数据和预设Bert模型,提取新闻文本数据和评论文本数据中的表征向量集合;
根据得到的表征向量集合和预设DE-Former模型,得到舆情分类结果。
进一步的,通过网络爬虫收集金融相关的客观新闻文本数据以及评论文本数据。
进一步的,对获取的文本数据进行清洗、过滤和筛选预处理。
进一步的,采用attention机制以天为单位获取每天新闻文本数据和评论文本数据相对应的总的特征向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110551833.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置