[发明专利]一种基于深度学习技术和规则库的银行授信文本解析方法在审

专利信息
申请号: 201811522792.3 申请日: 2018-12-13
公开(公告)号: CN109918639A 公开(公告)日: 2019-06-21
发明(设计)人: 黄泓 申请(专利权)人: 北京海致星图科技有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06Q40/02
代理公司: 暂无信息 代理人: 暂无信息
地址: 100089 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本发明提供了一种基于深度学习技术和规则库的银行授信文本解析方法,包括如下步骤:(1)、建立银行授信业务的关注点规则库;(2)、银行授信文本解析,具体包括如下步骤:1)、业务情况和贷后内容识别;2)、实体关系抽取;3)、业务情况属性值提取;4)、贷后关注点识别以及属性值提取;5)、整体流程,包括:a、输入授信文本内容;b、将文本内容分割为业务情况和贷后要求两部分内容;c、通过实体识别模型对分割的业务内容信息进行实体识别,然后从文本中找出每个实体对应的上下文信息,再用关系模型进行关系识别;d、基于正则方法解析业务内容各种属性值;e、然后对贷后要求内容进行解析,通过扫描规则库,提取触发事件和每个事件对应的属性值;f、解析结果合并,输出。本专利识别精度高,工作效率高。
搜索关键词: 文本解析 规则库 实体识别 关注点 银行 解析 文本内容分割 业务内容信息 工作效率高 上下文信息 触发事件 关系模型 关系识别 解析结果 内容识别 扫描规则 实体关系 文本内容 业务内容 整体流程 抽取 文本 输出 合并 学习 分割
【主权项】:
1.一种基于深度学习技术和规则库的银行授信文本解析方法,其特征在于,包括如下步骤:(1)、建立银行授信业务的关注点规则库;所述规则库的规则结构如下:一个事件由关注点、触发词、不变属性和可变属性构成,不变属性可有可无,其中rex代表的是该条语句是正则表达式;规则库包含了若干条事件,主要是针对金融领域积累的规则;通过匹配文本句子是否命中触发词,来判断该关注点是否发生,如果命中了触发词,再对关注点进行可变属性和不变属性值提取;(2)、银行授信文本解析,具体包括如下步骤:1)、业务情况和贷后内容识别银行授信系统审批内容包含了业务情况的介绍和贷后管理的说明,首先我们对于给定的文本内容,先将文本内容切分成两部分,第一部分为业务情况,第二部分为贷后情况,主要通过:“要求”,“管理要求”,“建议”,“提示”等字用正则方法对文本内容进行分割,分割后,若有多个部分,第一部分为业务情况介绍,其它部分合并为贷后内容;2)、实体关系抽取针对银行业务,实体关系识别总共5种:担保抵押、股东、子公司、实际控制人、隶属集团,通过上述步骤,从授信文本中分割出业务内容,用实体识别模型,我们采用的是基于双向长短时记忆模型结合条件随机场实现序列标注,对文本进行实体识别;抽取到实体后,分别提取实体在文本中的上下文信息内容,然后分别输入到卷积神经网络模型中,在最后一层的pooling层对特征进行拼接,最后输入到softmax层进行实体关系分类,总类别数为6类:5种关系类别再加上非关系类别,即该实体不属于预先定义的任何一种关系;3)、业务情况属性值提取对文本分割成两部分后,提取业务情况内容,比如说授信金额,期限,支付方式等,为了提高正则匹配的精确度和效率,我们把内容按照标点符号分割成多个句子,然后对每一个句子进行属性值的提取,每个属性值通过正则匹配结果,业务情况属性值为:业务名称、金额、利率、利率调整方式、信用证种类、期限、还款方式、支付方式、手续费、用途、收款人、受益人、最高额合同、担保方式、重点事项,每个属性值的提取通过正则表达式进行提取;4)、贷后关注点识别以及属性值提取提取分割后的贷后内容,同样将该贷后内容按照标点符号划分成多个句子,对每一个句子,首先判断规则库里面的每一个关注点对应的触发词是否和句子匹配,如上面的规则库中的贷款使用关注点,对应的触发词有:rex、贷款用作、贷款挪用到、融资用途、授信用途:共5个触发词,其中第一个为正则表达式,如果正则表达式能够从句子提取满足该模式的结果,则该句子有贷款使用关注点,若没有匹配上,则判断后面的四个词是否在句子上,只要有一个在句子里,贷款使用关注点都被激活,对每个用触发词命中的关注点,然后提取该关注点的属性值,分为可变属性和不变属性,其中的不变属性若有,则匹配句子,没有则不需要,然后对可变属性通过多个正则表达式提取属性值,对每个句子扫描整个规则库,做同样的操作,最后将多个句子提取的关注点合并一起,去掉重复的,得到该段文本内容的所有关注点,以及每个关注点对应的属性值;5)、整体流程a、输入授信文本内容;b、将文本内容分割为业务情况和贷后要求两部分内容;c、通过实体识别模型对分割的业务内容信息进行实体识别,然后从文本中找出每个实体对应的上下文信息,再用关系模型进行关系识别;d、基于正则方法解析业务内容各种属性值;e、然后对贷后要求内容进行解析,通过扫描规则库,提取触发事件和每个事件对应的属性值;f、解析结果合并,输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811522792.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top