[发明专利]基于文本预训练和多任务学习的金融风险预测方法及装置在审
申请号: | 202010865079.X | 申请日: | 2020-08-25 |
公开(公告)号: | CN113743111A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 郭舒;陈桢豫;王丽宏;贺敏;毛乾任;李晨;钟盛海;黄洪仁 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06Q40/08 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 韩来兵;李雪 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 训练 任务 学习 金融风险 预测 方法 装置 | ||
本申请涉及一种基于文本预训练和多任务学习的金融风险预测方法及装置。该方法包括:获取待处理文本;将待处理文本输入第一神经网络模型,以按照风险识别任务的处理流程确定待处理文本的内容是否包括金融风险;在待处理文本的内容包括金融风险的情况下,利用第一神经网络模型按照风险分类任务的处理流程确定金融风险的风险类型;利用第一神经网络模型按照风险主体识别任务的处理流程确定与风险类型匹配的风险主体。本申请通过预训练语言模型技术解决了缺乏对语义的深度挖掘导致模型性能不佳的问题,并采用多任务处理,解决了数据量有限而且任务之间无法进行信息共享导致模型性能不佳的技术问题。
技术领域
本申请涉及风险预测技术领域,尤其涉及一种基于文本预训练和多任务学习的金融风险预测方法及装置。
背景技术
随着互联网在金融业务上的深度应用,互联网金融逐渐走入大众视野,互联网金融指的是通过或依托互联网技术和工具进行资金融通和支付及相关信息服务等业务的行为,它利用互联网平台为金融提供了新的获取信息的方式,多样化的风险管理工具与风险分散工具。
当前互联网+金融格局,由传统金融机构和非金融机构组成。传统金融机构主要为传统金融业务的互联网创新以及电商化创新、APP软件等;非金融机构则主要是指利用互联网技术进行金融运作的电商企业、(P2P)模式的网络借贷平台,众筹模式的网络投资平台,挖财类(模式)的手机理财APP(理财宝类),以及第三方支付平台等。
从机构和市场指标的规模上来说,目前我国互联网金融似乎已经走到了全球前列,但仍然存在“短板”。互联网金融带给人们便利的同时,也在不断暴露出层出不穷的风险,如“P2P跑路”、“网络高利贷和暴力催收”等。互联网本身具有不分地域、信息涉众面广的特点,而这些使得互联网金融风险传播速度快,风险跨域处置难度大。另外,打击非法集资是防范金融风险的重要领域,当前非法集资形式依然严峻,新案高发与陈案积压并存,区域及行业风险集中,上网跨域特点明显,集资参与人量大面广。由此可见,对互联网金融风险的预警和防控已经势在必行,迫在眉睫。
目前,相关技术中,对金融风险的预测都存在片面性。金融风险预测任务包含的研究问题种类十分广泛,一些研究专注于利用用户、公司或机构的特征判断其是否存在潜在的金融风险,即将金融风险预测视为一个二分类问题;另一些研究旨在判定具体目标的金融风险等级,即将其视为一个多分类问题;也有研究指向于预测公司或其他金融机构的金融风险评分,即将其视为一个回归问题。
传统的金融风险预测任务一般采用量化的数据作为模型的输入,即传统金融风险预测的研究大多是基于量化数据进行,将样本的量化指标直接作为特征进行分类。比如,在预测欺诈行为的任务中可能采取用户的收入、存款数额等数据作为输入;而在预测银行破产中常采用银行目前的总资产、现金流、总贷款金额等。然而,量化数据具有数据量有限、非业内人士难以获取的特点,而对于互联网上大量存在且容易获得的金融文本数据,当前的金融风险研究对其利用依旧不够充分。
另外,虽然针对金融文本数据进行分析从而进行金融风险预测的工作较少见,但针对金融文本数据进行其他方面研究分析的工作也常有出现。此类研究一般被统称为金融文本挖掘。金融文本挖掘的初衷是,利用文本挖掘技术对文本数据进行分析以进行更好的决策。目前,在金融领域的文本挖掘工作主要用于外汇汇率预测、股票市场预测、客户流失预测等,还有一些网络安全方面的应用,包括网络钓鱼检测、垃圾邮件检测和欺诈检测等。金融领域的文本挖掘工作一般采用新闻标题或者新闻内容等文本数据,结合一些常见的机器学习算法(LR、SVM、DT、k-NN和NB等),对数据进行分类任务。现阶段常见的金融文本挖掘工作,譬如基于金融新闻的外汇汇率预测和股票市场预测等,大多在文本预处理和特征构建的方法采取比较简单的方法,一般采用词袋模型进行文本预处理,忽略位置关系和词汇之间的关联,得到的词向量比较稀疏;在特征构建阶段,普遍将词频作为特征,缺乏对语义的深度挖掘。
此外,金融风险预测多采用单模型或者集成模型的方法,没有很好地解决某些场景下训练数据不充分的问题,不能充分利用任务之间的共享信息来优化提升各个任务的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010865079.X/2.html,转载请声明来源钻瓜专利网。