[发明专利]一种基于文本的金融数据抽取方法、装置和电子设备在审
申请号: | 201910578883.7 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110362825A | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 高飞龙;王安滨;常富洋 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 乔东峰 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联文本 文本抽取 金融数据 文本 金融服务请求 用户交互界面 抽取 电子设备 风险控制 接收用户 自动获取 指令 关联 展示 | ||
本发明提出一种基于文本的金融数据抽取方法、装置和电子设备,所述方法包括如下步骤:获取与用户的金融服务请求的关联文本;通过用户交互界面接收用户关于文本抽取规则的指令;按照所述文本抽取规则从该与用户的金融服务请求的关联文本抽取用户的关联金融数据;通过所述用户交互界面展示所述关联文本及对该关联文本进行文本抽取后得到的文本。自动获取关联文本及对该关联文本进行文本抽取后得到的文本,因此使得风险控制的操作非常简单。
技术领域
本发明涉及金融信用服务领域,具体涉及一种基于文本的金融数据抽取方法及装置。
背景技术
现有个人贷款或授信决策,需要先对客户进行评级,然后测算贷款或授信额度。目前常见的是通过授信模型来构建个人授信评分卡,基于从银行等机构获取的信息,对用户的个人信用评价,根据用户的个人信用评价确定贷款额度。
现有的信贷信用评估模型对信贷申请人进行评分,目前常见的是仅仅从征信数据库中获得关联人的征信数据,根据获得关联人的征信数据来量化借贷申请人的总体信用可靠度。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于文本的金融数据抽取方法、装置和电子设备。
本发明的第一方面提出一种基于文本的金融数据抽取方法,包括如下步骤:
获取与用户的金融服务请求的关联文本;
通过用户交互界面接收用户关于文本抽取规则的指令;
按照所述文本抽取规则从该与用户的金融服务请求的关联文本抽取用户的关联金融数据;
通过所述用户交互界面展示所述关联文本及对该关联文本进行文本抽取后得到的文本。
根据本发明的一种优选实施方式,所述用户的关联文本包括:社交媒体的历史消息和/或已收发的短信。
根据本发明的一种优选实施方式,获取与用户的金融服务请求的关联文本具体包括:对抽取后该用户的关联金融数据进行分类,得到各个类别的文本标签和文本信息。
根据本发明的一种优选实施方式,所述文本抽取规则包括:正则或者字符串抽取规则。
根据本发明的一种优选实施方式,所述文本抽取规则还包括:各个类别的文本标签和文本信息需要的抽取字段。
根据本发明的一种优选实施方式,通过所述用户交互界面展示所述关联文本及对该关联文本进行文本抽取后得到的文本之后还包括:
根据本发明的一种优选实施方式,将所述用户的关联金融数据输入信用评估模型,并确定该用户的金融风险。
根据本发明的一种优选实施方式,通过用户交互界面接收用户关于文本抽取规则的指令之后,并且按照所述文本抽取规则从该与用户的金融服务请求的关联文本抽取用户的关联金融数据之前包括:
针对每个类别的文本信息进行文本分词,以获得该类别的特征词,并基于各个类别的特征词建立信用评估模型。
根据本发明的一种优选实施方式,针对每个类别的文本信息进行文本分词,以获得该类别的特征词包括以下步骤:
采用停用词库和金融行业自定义词库,基于分词技术每个类别的文本信息进行分词;
计算出每个类别所获取的分词的TF-IDF词频,选取TF-IDF词频由高到低的第一预设数量的分词;
基于TF-IDF词频由高到低的第一预设数量的分词,计算每个分词的信息增益,选取信息增益由高到低的第二预设数量的分词;所述第二预设数量小于所述第一预设数量;
对所述第二预设数量的分词进行筛选、优化、组合,获取该类别的特征词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910578883.7/2.html,转载请声明来源钻瓜专利网。