[发明专利]一种征信报告解析方法、装置及计算机可读存储介质在审
申请号: | 201910428124.2 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110232328A | 公开(公告)日: | 2019-09-13 |
发明(设计)人: | 吴汉宏;侯凯 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F16/35;G06F17/27;G06Q40/02 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本内容 计算机可读存储介质 解析 文本分类模型 获取图像 设备获取 图像识别 分析 输出 | ||
1.一种征信报告解析方法,其特征在于,包括:
获取多个征信报告以及所述多个征信报告中每个征信报告的文本内容和解析报告,其中,所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况;
对所述多个征信报告和所述多个征信报告的文本内容进行训练以获得图像识别模型,以及对所述多个征信报告的文本内容和解析报告进行训练以获得文本分类模型;
将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容;
将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
2.根据权利要求1所述的方法,其特征在于,所述征信报告的解析报告包括:
所述征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。
3.根据权利要求1所述的方法,其特征在于,所述将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告,包括:
提取所述文本内容中的关键信息并对所述关键信息进行结构化处理,获取结构化数据;
将所述结构化数据输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,还包括:
根据所述解析报告筛选出符合预设条件的征信报告;
获取所述符合预设条件的征信报告对应的人工解析报告,若所述符合预设条件的征信报告对应的人工解析报告与所述符合预设条件的征信报告的解析报告之间的相似率低于阈值,则通过所述符合预设条件的征信报告、所述符合预设条件的征信报告的文本内容和所述符合预设条件的征信报告对应的人工解析报告更新所述图像识别模型和所述文本分类模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述解析报告筛选出符合预设条件的征信报告包括:
若所述解析报告包括所述征信报告的风险等级信息,则筛选出所述风险等级信息中包含预设等级信息的征信报告;
若所述解析报告包括所述征信报告的风险评分,则筛选出所述风险评分在阈值范围内的征信报告;
若所述解析报告包括所述征信报告的不超过预设字符数的针对风险的文字描述,则筛选出所述针对风险的文字描述中包含预设字段的征信报告。
6.根据权利要求4所述的方法,其特征在于,所述将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,所述根据所述解析报告筛选出符合预设条件的征信报告之前,还包括:
保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告,以用于下一次训练图像识别模型和文本分类模型。
7.一种征信报告解析装置,其特征在于,包括:
获取单元,用于获取多个征信报告以及所述多个征信报告中每个征信报告的文本内容和解析报告,其中,所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况;
训练单元,用于对所述多个征信报告和所述多个征信报告的文本内容进行训练以获得图像识别模型,以及对所述多个征信报告的文本内容和解析报告进行训练以获得文本分类模型;
第一解析单元,用于将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容;
第二解析单元,用于将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910428124.2/1.html,转载请声明来源钻瓜专利网。