[发明专利]一种基于机器学习的金融信息负面主体判定的方法在审
申请号: | 202010802323.8 | 申请日: | 2020-08-11 |
公开(公告)号: | CN111914553A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 李振;鲍东岳;张刚;尹正;马圣楠;任鹏飞;傅佳美;吕亚波;李霞;赵希;高宇 | 申请(专利权)人: | 民生科技有限责任公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/211;G06F40/126;G06F16/35;G06N3/04;G06N20/10;G06K9/62 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 101300 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 金融 信息 负面 主体 判定 方法 | ||
1.一种基于机器学习的金融信息负面主体判定的方法,其特征在于,所述方法包括:
步骤1:提取金融信息语料,并进行数据清洗和数据增强,得到原始语料数据;
步骤2:采用来自变换器的双向编码器表征量模型将原始语料数据中的实体句和内容描述句分别转换为实体句句向量和内容描述句句向量;
步骤3:将实体句句向量和内容描述句句向量按照维度完成拼接,形成拼接句句向量;
步骤4:将拼接句句向量分别输入支持向量机模型、长短期记忆模型及分布式梯度增强库模型,进行实体正负面判断,分别得到支持向量机模型判断结果、长短期记忆模型判断结果和分布式梯度增强库模型判断结果;
步骤5:通过投票式模型融合将支持向量机模型判断结果、长短期记忆模型判断结果及分布式梯度增强库模型判断结果进行融合,得到实体正负面预测结果;
步骤6:对实体正负面预测结果进行后处理,提取金融文本对应的所有负面实体。
2.根据权利要求1所述的方法,其特征在于,步骤1中,采取逆透视的方法对原始数据进行增强:对原始数据进行行列转换,将多个实体拆分成多行,其余信息按照拆分前原始数据补全。
3.根据权利要求1所述的方法,其特征在于,步骤2中,所述来自变换器的双向编码器表征量模型采用双向变换器语言模型。
4.根据权利要求3所述的方法,其特征在于,步骤2具体包括:
步骤21:来自变换器的双向编码器表征量模型从原始语料数据中的实体句/内容描述句中抽取两个句子,其中第二句是第一句的下一句的概率是50%;
步骤22:学习第一句和第二句之间的关系;
步骤23:随机掩盖掉两个句子中的部分词,并通过来自变换器的双向编码器表征量模型预测掩盖的词,学习句子内部的关系;
步骤24:将经过处理的句子传入变换器语言模型,通过两个损失函数同时学习以上下一句预测和掩码语言模型两个目标来完成训练:
步骤25:抽取来自变换器的双向编码器表征量模型倒数四层变换器的句向量,求其平均值作为实体句/内容描述句数据的句向量。
5.根据权利要求4所述的方法,其特征在于,步骤2中,实体句句向量和内容描述句句向量均为768维句向量。
6.根据权利要求1所述的方法,其特征在于,步骤3中,采用数组连接函数完成拼接实体句句向量和内容描述句句向量,形成拼接句句向量。
7.根据权利要求1所述的方法,其特征在于,步骤5中,所述投票式模型融合是指选择所有分类模型当中输出最多的那个类。
8.根据权利要求1所述的方法,其特征在于,步骤6中,后处理具体包括:将实体正负面预测结果按照情感方向进行整合,已知标签为1代表对应实体为负面主体,标签为0代表对应实体为正面主体,将同一条金融信息中对应标签为1的负面主体集中显示。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据权利要求1至8中任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于民生科技有限责任公司,未经民生科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010802323.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体器件的制备方法
- 下一篇:半导体器件的制备方法