[发明专利]一种金融长文本复核系统在审
申请号: | 202110531556.3 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113159969A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 朱乐为;马文翔;崔子锋 | 申请(专利权)人: | 广州故新智能科技有限责任公司 |
主分类号: | G06Q40/06 | 分类号: | G06Q40/06;G06F40/18;G06F40/30;G06K9/00 |
代理公司: | 广州市百拓共享专利代理事务所(特殊普通合伙) 44497 | 代理人: | 刘静 |
地址: | 510000 广东省广州市海珠区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 金融 文本 复核 系统 | ||
本发明提供一种金融长文本复核系统,其用于解析和审核非结构化金融数据长文本,其包括数据解析模块以及数据审核模块,所述数据解析模块将非结构化数据解析成结构化数据,该数据解析模块包括版面识别单元、表格语义分析单元以及表格语义解析单元;所述数据审核模块对结构化数据进行审核处理,该数据审核模块包括错别字审查单元、一致性审核单元、勾稽关系审核单元以及文本格式审核单元。
技术领域
本发明涉及金融文本分析领域,尤其涉及一种金融长文本复核系统。
背景技术
金融长文本主要指年度报告、招股说明书、审计报告等财务数据文本,该些文本主要由文本段落、财务指标和表格数据等复杂元素组成,目前,金融机构或企业本身需要对金融长文本进行复核或其他处理挖掘潜在信息,但该些金融长文本主要依靠人工复核,由于数据量之大以及数据之间的关系复杂,造成人工复核的效率以及精准度低,甚至在发布出去的年度报告中存在数据不一致的问题,为了提高金融长文本的复核效率和精准度,基于计算机强大的计算能力,结合人工智能对自然语言处理技术的兴起,现提出一种金融长文本符合系统,以解决金融长文本符合效率低以及精准度低的问题。
发明内容
为了解决现有技术存在的缺点,本发明提供一种金融长文本复核系统,其通过解析金融长文本的文本内容,结合人工智能对文本内容的处理,实现金融长文本的高效率以及精准复核。
本发明提供一种金融长文本复核系统,其用于解析和审核非结构化金融数据长文本,其包括数据解析模块以及数据审核模块,所述数据解析模块将非结构化数据解析成结构化数据,该数据解析模块包括版面识别单元、表格语义分析单元以及表格语义解析单元,所述版面识别单元用于获取原始金融数据长文本对的文档篇章结构信息,所述表格语义分析单元用于分析版面识别单元获取的表格数据并按预定义的数据模型组织存储数据,所述文本语义解析用于解析版面识别单元获取的段落、标题数据并按预定义的数据模型组织存储数据;所述数据审核模块对结构化数据进行审核处理,该数据审核模块包括错别字审查单元、一致性审核单元、勾稽关系审核单元以及文本格式审核单元,所述错别字审查单元根据NLP模型检测潜在错别字得到候选字符及概率并结合领域字典针对段落、标题数据查找错别字提出纠正建议,所述一致性审核根据会计准则对表格数据进行审核,所述勾稽关系审核单元根据会计准则提取文本中存在的勾稽关系规则,并由该些勾稽关系规则进行数据审核;所述文本格式审核单元根据标题和文本的目录结构,根据序号连续性和关联序号规则进行格式审核。
优选的,所述非结构化金融数据长文本为PDF格式文本。
优选的,所述版面识别单元获取原始金融数据长文本对的文档篇章结构信息的具体步骤为:S10:将PDF格式文本按页转换为图片格式文本,并进行拉伸以及二值化预处理;S11:根据CV模型检测预处理后的图片格式文本,获取表格、页眉、页脚、图片、公式数据;S12:提取表格、页眉、页脚、图片、公式数据以外的文字数据,并将该些文字数据按页,行顺序组织;S13:根据NLP模型将提取的文字数据划分为段落数据和标题数据;S14:整合输出提取的数据保存至数据库中。
优选的,所述表格语义分析单元对表格数据分析的具体步骤为:S20:获取S14中的表格数据;S21:对表格数据进行预处理,包括:数据清洗和集合划分;S22:根据NLP模型解析预处理后的表格数据并提取表格数据关系;S23:将表格数据以及表格数据关系按预定义的数据模型组织输出并保存至数据库中;所述文本语义解析单元解析段落数据和标题数据的具体步骤为:S30:获取S14中的段落数据和标题数据;S31:对段落数据和标题数据进行预处理,包括:数据清洗、数据长度切割、定位数据提取位置,以及数据字型特征转换为预定义字型格式;S32:根据NLP模型解析预处理后的段落数据和标题数据,提取数据文本中的关键信息、相关必要信息以及关键信息之间的关联;S33:将解析后的段落数据和标题数据按预定义的数据模型组织输出并保存至数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州故新智能科技有限责任公司,未经广州故新智能科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110531556.3/2.html,转载请声明来源钻瓜专利网。