[发明专利]一种金融文本情感分析方法、系统、介质和设备在审
申请号: | 202310030728.8 | 申请日: | 2023-01-10 |
公开(公告)号: | CN115759119A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 温秋华;刘文骁;潘定;杨紫宏;李雅冬;樊一锋;邓寅骏;梁铭杰;甄昊龙;麦铭桐;黄斐然 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/242;G06F40/284;G06F16/35;G06N3/0455;G06N3/047;G06N3/048;G06N3/091 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 郑秋松 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 金融 文本 情感 分析 方法 系统 介质 设备 | ||
本发明公开了一种金融文本情感分析方法、系统、介质和设备,该方法包括下述步骤:分析每个金融文本表达的情感并进行标注;对待测金融文本进行数据预处理,得到金融文本序列;根据金融词典进行分词、编码,编码后输入BERT模型训练;多头注意力层以编码后的词向量作为输入,为每个词向量提供不同语义的词向量,前馈层将含有序列信息的词向量进行线性处理,得到整合信息后的词向量;多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;整合信息后的各个词向量经过全连接层、softmax计算,选择概率最大的情感作为文本情感分类的结果。本发明能更好地利用到完整语义信息,极大提高了文本情感分析的准确度。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种金融文本情感分析方法、系统、介质和设备。
背景技术
在金融领域,诸如股票评论、基金信息和金融新闻等文本信息,因其含有金融领域专业词汇,因此需要将其与通用文本的处理方法区分开,并且金融领域文本信息中包含着积极、消极等多种情感,不同于通用领域的文本信息,金融领域的文本信息中包含着对当前市场的看法以及对未来市场走势的预测,这些舆论信息都有可能会影响金融市场的走势,甚至会影响到经济建设体系,因此对金融领域文本信息的处理有着十分重要的应用价值。
过去对自然语言的处理模型大多是以卷积神经网络或卷积循环网络为基础进行构建,而现有的卷积神经网络由于只能提取局部特征,对于文本这类需要长距离依赖的数据不够使用,不能很好的将上下文信息联系起来;循环神经网络虽然可以解决长距离依赖的问题,但其并行能力较差,模型速度较慢;而且在文本数据处理方面,过去标注数据速度较慢,严重影响模型开发进度。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种金融文本情感分析方法,本发明以BERT模型作为基础架构,解决了不能将上下文联系起来、运行速度较慢的问题,利用BERT预训练模型在下游任务完成对金融文本的多分类任务,利用多头注意力层更好地获取到整个序列的信息,提高文本情感识别的准确度;前馈层进一步整合语义信息,汇聚向量,经过残差连接和归一化处理更好地利用到完整语义信息,极大提高了文本情感分析的准确度。
本发明的第二目的在于提供一种金融文本情感分析系统;
本发明的第三目的在于提供一种计算机可读存储介质;
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种金融文本情感分析方法,包括下述步骤:
S1:获取金融文本,分析每个金融文本表达的情感并进行标注;
S2:对待测的金融文本进行数据预处理,所述预处理包括数据清洗、文本对齐和数据增强,得到金融文本序列;
S3:将数据预处理后的金融文本序列根据金融词典进行分词,并进行编码,编码后的词向量输入BERT模型进行训练,得到BERT预训练模型;
S31:多头注意力层以编码后的词向量作为输入,通过多重的自我注意力机制为每个词向量提供不同语义的词向量,将其连接后进行转化,得到每个词语获取了序列中其他词语信息后的向量表示,作为含有序列信息的词向量,前馈层将含有序列信息的词向量进行线性处理,将其处理为更高维的表示,再投影回原来的空间,得到整合信息后的词向量;
通过多头注意力机制为每个词向量提供不同语义的词向量,具体包括:
编码后的词向量通过与查询矩阵、键矩阵和值矩阵相乘得到词语在自我注意力机制中的查询项、键项和值项;
将词向量的查询项与序列中其他词向量所构成的键项相乘,得到该词向量与其他向量的关注值分布,对关注值分布列表进行softmax计算,将关注值分布转化为概率分布,用概率大小表示关注值的大小程度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310030728.8/2.html,转载请声明来源钻瓜专利网。