[发明专利]用于实现金融领域实体识别和情感分析的方法、装置、处理器及其计算机可读存储介质在审
申请号: | 202111525815.8 | 申请日: | 2021-12-14 |
公开(公告)号: | CN114153951A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 俞枫;梅龙 | 申请(专利权)人: | 国泰君安证券股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/295;G06N3/04;G06N3/08;G06N7/00 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
地址: | 200041 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 实现 金融 领域 实体 识别 情感 分析 方法 装置 处理器 及其 计算机 可读 存储 介质 | ||
1.一种用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的方法包括以下步骤:
(1)采集金融领域多方数据源,进行文本数据的解析处理;
(2)根据预设的实体名称,对解析后的文本数据进行名称要素的抽取;
(3)基于所抽取的名称要素在整篇文本中的词频统计结果,进行实体识别判断;
(4)基于上述步骤(3)获取到的一个或多个实体,通过训练模型进行细粒度情感分析判断;
(5)基于上述步骤(3)和(4)获取的结果,将对应的文本打上判断识别后的标签。
2.根据权利要求1所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的多方数据源包括但不限于金融领域中的新闻类、资讯类以及公告类的数据。
3.根据权利要求2所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的步骤(1)具体为:
对采集到的金融领域多方数据进行包括但不限于去除HTML标签、统一转为UTF-8编码的文本解析操作。
4.根据权利要求1所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)预先设置包括但不限于公司名称、股票名称以及债券名称的实体名称;
(2.2)采用BILSTM+CRF算法训练的抽取模型进行文本数据的要素抽取。
5.根据权利要求4所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的步骤(2.2)具体包括以下步骤:
(2.2.1)针对采集到的每一句文本中的每一字符,通过Glove词向量获得每一个字符的向量表征;
(2.2.2)通过双向LSTM网络层获取每一个字符所属标记的概率分布情况;
(2.2.3)通过CRF层获取各个标记之间的转移概率;
(2.2.4)通过维特比算法从所有可能的标记路径中解析出每个字符的标记概率和标记转移概率之和最大的最优路径,以获取所需的文本要素信息。
6.根据权利要求5所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的抽取模型中设置的模型训练参数预设值包括:
学习率learning_rate、最长序列长度max_seq_length以及BILSTM隐层神经元个数hidden_size,其中,
所述的学习率learning_rate的参数预设值设置为0.001;
所述的最长序列长度max_seq_length的参数预设值设置为200;
所述的BILSTM隐层神经元个数hidden_size的参数预设值设置为128。
7.根据权利要求4所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的抽取模型将在每一个的模型训练当中不断优化,并通过累计训练积累的语料库对所述的抽取模型中的实体进行二次校对,以避免实体名称不完整。
8.根据权利要求7所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的步骤(3)具体为:
对进行消歧处理后获取的实体名称进行词频统计处理,并结合相应实体在文本中的位置信息,确定最终的一个或多个实体。
9.根据权利要求8所述的用于实现金融领域实体识别和情感分析的方法,其特征在于,所述的步骤(4)具体为:
对获取到的一个或多个实体,逐个结合原文文本通过Doc-level Target DependenceLSTM训练模型完成细粒度情感分析判断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国泰君安证券股份有限公司,未经国泰君安证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111525815.8/1.html,转载请声明来源钻瓜专利网。