[发明专利]一种智慧监管黑匣子的非结构化资料汇集处理方法在审
申请号: | 202110988313.2 | 申请日: | 2021-08-26 |
公开(公告)号: | CN113821555A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 陈仲永;徐航;王刚 | 申请(专利权)人: | 陈仲永 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/23;G06F40/186;G06K9/20 |
代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 尉伟敏 |
地址: | 310012 浙江省杭州市西湖区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智慧 监管 黑匣子 结构 资料 汇集 处理 方法 | ||
1.一种智慧监管黑匣子的非结构化资料汇集处理方法,其特征在于,包括以下步骤:
S1:根据非结构化的资料文档格式,通过对应的图文识别手段获取文本内容,并在标准模板格式的基础上对识别后的内容修正;
S2:将识别并修正后的结构化内容标注对应的模板,并保存到数据库中对应的行列坐标中;
S3:根据标记的行列坐标信息,逐个向历史数据库中对应的模板信息进行匹配,保存匹配后文件模板相应坐标对应的标签;
S4:根据匹配的情况,匹配到对应标签的坐标信息,修改对应坐标的标签;
S5:将标签与坐标对应的文本内容生成结构化的字段并将字段对应的栈值进行标记;
S6:完成从无序非结构化文本到结构化字段栏位的转换。
2.根据权利要求1所述的一种智慧监管黑匣子的非结构化资料汇集处理方法,其特征在于,所述的非结构化资料文档包括文本文档、Word文档、Excel文档、PDF文档和图片文档;
Word文档通过Word API技术对Word文档的内容进行读取,并在程序中按语法要求将转换后的数据写入文本文档中;
Excel文档通过Excel API技术读取Excel文档中所有单元格的内容及格式,从而完成从Excel文档到文本文档的转换;
图片文档以二进制形式存储,通过OCR文字识别技术转换图片中的文本内容。
3.根据权利要求1或2所述的一种智慧监管黑匣子的非结构化资料汇集处理方法,其特征在于,所述的修正过程为在模板库中定义的标准模板的基础上对识别后的内容进行比对并进行内容补全。
4.根据权利要求1所述的一种智慧监管黑匣子的非结构化资料汇集处理方法,其特征在于,所述的步骤S3包括以下步骤:
S301:根据步骤S2标记的每个坐标信息,逐个向历史数据库中对应的模板数据行列信息进行匹配并进行打标签操作;
S302:保存匹配后文件模板相应坐标对应的标签;若未匹配到历史数据库中的标签,则对历史数据库进行更新,添加更新后的文档模板。
5.根据权利要求1或2或4所述的一种智慧监管黑匣子的非结构化资料汇集处理方法,其特征在于,在步骤S2和S3中,按行读取文档中的内容,在解析过程中,以字符为单位依次读取每一行的每一个字符,逐行进行读取,并获取每个字符的坐标值。
6.根据权利要求1或4所述的一种智慧监管黑匣子的非结构化资料汇集处理方法,其特征在于,所述的匹配过程为:将模板中的内容总体格式与识别出来的内容进行比对,选择最相似的模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈仲永,未经陈仲永许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110988313.2/1.html,转载请声明来源钻瓜专利网。