[发明专利]金融信息负面实体发现方法、装置、电子设备及存储介质有效
申请号: | 202011086272.X | 申请日: | 2020-10-12 |
公开(公告)号: | CN112257444B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 邓蔚;刘智若;林智敏;王晓浪;穆磊;陈岚;刘永聪 | 申请(专利权)人: | 四川传承数据设计有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F40/289;G06F40/30;G06F16/9535;G06F16/35;G06N3/0442;G06N3/0455;G06N3/048 |
代理公司: | 成都立新致创知识产权代理事务所(特殊普通合伙) 51277 | 代理人: | 谭德兵 |
地址: | 610000 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融 信息 负面 实体 发现 方法 装置 电子设备 存储 介质 | ||
本发明涉及自然语言处理领域,提出了基于实体特征的金融信息负面实体发现方法、装置、电子设备及存储介质。在金融信息负面实体发现方法中,利用爬虫技术从金融类目标网页上爬取数据,构建金融信息数据集,通过分词处理、词性标注、命名实体识别,构建金融信息初始实体集,在删除冗余实体后,生成具有特殊格式的实体特征信息,再经BERT模型训练和全连接层处理,使用sigmoid激活函数进行二分类处理,判定是否属于负面实体,生成负面实体二分类信息。本发明将金融信息负面实体识别和负面实体二分类两个任务转换为一个负面实体二分类任务,增强了每个实体的重要性,能更有效的挖掘候选实体与文档内容的内在联系,大大提高了金融负面实体识别的准确度。
技术领域
本发明涉及自然语言处理领域,尤其是命名实体识别技术,提出了基于实体特征的金融信息负面实体发现方法、装置、电子设备及存储介质。
背景技术
随着互联网的飞速进步和全球金融的高速发展,金融信息呈现爆炸式增长。如何从海量的金融文本中快速准确地挖掘出关键信息,成为了投资者和决策者重点考虑的问题之一。而在金融文本中的信息主体的挖掘和面向主体的负面消息检测,在风控和舆情分析等领域又很大的现实意义。
目前广泛应用于互联网产品中的是命名实体识别技术(Named EntityRecognition,简称NER),主要是识别文本中具有特定意义的实体。目前命名实体识别方法主要分为三大类:
1、基于规则的方法
通过人为编写规则,将文本与规则匹配,进而识别出命名实体。基于规则的命名实体识别需要大量的专业人士,耗费人力、物力,且规则之间容易冲突,针对不同的领域都需要重新编写规则,可执行性不好。
2、基于特征模板的方法
在统计机器学习中,NER被视为序列标注任务,从大规模的预料中学习出标注模型,再对句子的各个位置进行标注。基于特征模板的方法需基于大量预料训练,对数据量要求比较高;且基于统计机器学习,无法识别新的未出现过的命名实体;对于专有领域和目的的识别效果并不理想。
3、基于深度学习的方法
神经网络可以解决大多数的自然语言处理任务。与序列标注任务中的分词和词性标注处理方法类似,将Token从离散的One-hot表示映射到低维空间中,转换为稠密的Embedding,再将居中的Embedding序列输入到循环神经网络(RNN)中,神经网络可自动提取特征,再使用Softmax来预测每个Token的标签。使用神经网络模型训练是一个端到端的整体训练过程,并非传统的Pipeline。目前最流行的模型是LSTM-CRF,再LSTM层后接入CRF来做句子级别的标签预测,这样就不再是对每个Token独立分类。
传统的负面实体识别任务包括:对给定的文本分别进行负面信息判断和负面主体判定两个任务。应用到金融信息负面实体判断中时,需分别执行以下过程:
(1)负面信息判断任务:判定该文本是否包含金融实体的负面信息,如果文本不包含负面信息,或者包含负面信息但负面信息未涉及金融实体,则负面信息判定为没有。
(2)负面主体判定任务:如果文本中包含金融实体的负面信息,则继续判断负面信息的主体对象是候选实体中的哪些实体。
上述过程将负面实体识别分为负面信息识别和负面实体识别两个任务,会引起误差传递问题,难以挖掘实体与文档更深层次的关系,存在候选实体影响力不足等缺点。
发明内容
本发明的发明目的在于:为了克服现有技术中的至少一个不足,提出了基于实体特征的金融信息负面实体发现方法、装置、电子设备及存储介质。
本申请实施例的目的之一在于提供基于实体特征的金融信息负面实体发现方法,应用于电子设备,所述方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川传承数据设计有限公司,未经四川传承数据设计有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011086272.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置