[发明专利]一种金融文本情感分析方法、系统、介质和设备在审
申请号: | 202310030728.8 | 申请日: | 2023-01-10 |
公开(公告)号: | CN115759119A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 温秋华;刘文骁;潘定;杨紫宏;李雅冬;樊一锋;邓寅骏;梁铭杰;甄昊龙;麦铭桐;黄斐然 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/242;G06F40/284;G06F16/35;G06N3/0455;G06N3/047;G06N3/048;G06N3/091 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 郑秋松 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 金融 文本 情感 分析 方法 系统 介质 设备 | ||
1.一种金融文本情感分析方法,其特征在于,包括下述步骤:
S1:获取金融文本,分析每个金融文本表达的情感并进行标注;
S2:对待测的金融文本进行数据预处理,所述预处理包括数据清洗、文本对齐和数据增强,得到金融文本序列;
S3:将数据预处理后的金融文本序列根据金融词典进行分词,并进行编码,编码后的词向量输入BERT模型进行训练,得到BERT预训练模型;
所述BERT模型设有编码器网络,包括Token Embeddings编码层、Segment Embeddings编码层和Position Embeddings编码层,所述Token Embeddings编码层将每个词对应的one-hot编码乘以对应的权重矩阵得到向量表示,所述Segment Embeddings编码层处理输入句子成对的分类任务,将文本情感分析任务中第一句中的所有词语都赋予0向量,将第二句中的所有词语都赋予1向量,所述Position Embeddings编码层分辨出词语在句子中的位置信息,将各个编码层的输出维度进行统一,并按元素相加,得到文本数据编码后的词向量结果,所述词向量结果包括词语信息、段落信息和位置信息;
S31:多头注意力层以编码后的词向量作为输入,通过多重的自我注意力机制为每个词向量提供不同语义的词向量,将其连接后进行转化,得到每个词语获取了序列中其他词语信息后的向量表示,作为含有序列信息的词向量,前馈层将含有序列信息的词向量进行线性处理,将其处理为更高维的表示,再投影回原来的空间,得到整合信息后的词向量;
通过多头注意力机制为每个词向量提供不同语义的词向量,具体包括:
编码后的词向量通过与查询矩阵、键矩阵和值矩阵相乘得到词语在自我注意力机制中的查询项、键项和值项;
将词向量的查询项与序列中其他词向量所构成的键项相乘,得到该词向量与其他向量的关注值分布,对关注值分布列表进行softmax计算,将关注值分布转化为概率分布,用概率大小表示关注值的大小程度;
将关注值分布与序列中其他词语的值项相乘后求和,得到某一词语包含序列信息的向量表示,遍历每个词语直至得到每个词语包含序列信息的向量表示;
词向量与多个不同的查询矩阵、键矩阵和值矩阵相乘,重复更迭得到每个词语多个不同的向量表示,并将每个词语不同的向量表示经过全连接层聚合特征,得到含有不同序列信息的词向量表示;
S32:在多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;
S33:将整合信息后的各个词向量经过全连接层,再经过一次softmax计算,选择其中概率最大的情感作为文本情感分类的结果。
2.根据权利要求1所述的金融文本情感分析方法,其特征在于,分析每个金融文本表达的情感并进行标注,具体包括:
对金融文本进行人工初步标注,将已标注数据送入k-means++模型,根据数据向量的欧氏距离判断相似度,距簇心较近的数据通过机器学习自动标注,距簇心较远的数据进行人工标注,人工标注后再次送入k-means++模型进行学习。
3.根据权利要求1所述的金融文本情感分析方法,其特征在于,对待测的金融文本进行数据预处理,具体包括:长文本截断、短文本补齐、特殊符号处理、回译法扩充、EDA数据增强和全角转半角;
所述长文本截断对超过预定长度的文本进行截断处理;
所述短文本补齐对不足预定长度的文本进行补齐操作,使用同一特殊符号进行补齐到固定长度;
所述特殊符号处理将与金融文本情感分析无关的特殊符号进行删除操作;
所述回译法扩充对中文金融文本先翻译为外文,再翻译回中文,并将扩充后的金融文本加入金融文本语料库;
所述EDA数据增强对任意金融文本采用同义词替换、随机插入、随机交换、随机删除四种操作中的一种;
所述全角转半角将全角字符转为半角字符。
4.根据权利要求1所述的金融文本情感分析方法,其特征在于,所述将数据预处理后的金融文本序列根据金融词典进行分词,采用Hanlp分词对金融文本进行分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310030728.8/1.html,转载请声明来源钻瓜专利网。