[发明专利]企业非标准格式文档的信息提取方法在审
申请号: | 201611033784.3 | 申请日: | 2016-11-23 |
公开(公告)号: | CN106776538A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 付婷;蔡宇翔;蔡力军;苏运东;肖琦敏;王雪晶;陈锐;张垚;刘心 | 申请(专利权)人: | 国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司信息通信分公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊,丘鸿超 |
地址: | 350003 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业 非标准 格式 文档 信息 提取 方法 | ||
技术领域
本发明涉及在企业的非标准格式文档的信息自动提取领域,具体涉及一种企业非标准格式文档的信息提取方法。
背景技术
文档的特定信息提取,是从非结构化的文档资料中自动抽取特定信息,包括用户感兴趣的信息实体和关系,等。这些被抽取出来的信息将会被表示为结构化的信息,最后存储在数据库中,为情报分析、数据挖掘等各种应用提供服务。可以认为,信息抽取的工作就是从原始文档中提取信息并将其填充到特定模板的过程,这个模板描述了欲抽取信息的文本特征及其上下文文本特征。
另一方面,随着信息化建设的深入,企业中流程越来越多地运行在线上,大量的业务运行信息以电子文档的形式存在。这些电子文档,包括常见的各类公文,如请示、通知、函、报告、会议纪要,以及合同、招标书、巡检报告、检修工单等等,都是重要的业务载体,具有重要的分析利用价值。然而,长期以来,企业非结构化文档数据的利用水平较低,其价值未能得到充分挖掘,这主要是因为非结构化的文档数据难以进行直接利用。将文档的关键信息抽取出,形成规范化的结构化信息,是实现企业非结构化文档深度利用的重要手段。对于合同信息的提取,是将合同文档中的关键字段,如甲乙方、金额、时间等提取出形成结构化数据后,就可以进行各类分析应用,如对合同履行过程是否合规的分析。
传统的文档关键信息提取,通常通过人工的方式进行:由人工逐个对文档的相关信息进行识别、拷贝,而后填写到指定的模版中。随着信息化建设的持续深入,原有线下工作流程基本都已经实现了电子化,导致文档数量以几何级数增加,纯粹依靠人工进行信息提取的方式已经不在适用。这里重点阐述自动化和半自动化的现有相关技术,目前主要有基于规则、基于命名实体提取两种方法:
现有技术一:基于规则的方法
基于规则的方法,是指依靠人工的方式,对特定的文档、关键信息编制相关的规则,而后在程序遍历文档文本流的过程中,将符合规则的信息提取出来。此处的规则,一般是以“正则表达式”的形式存在——正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式包含一系列特定的语法,提供强大的规则文本信息提取能力。例如,提取固定电话号码的正则表达式为:("^(/d{3,4}-)/d{7,8}$"),它的含义是“以3到4位数字开头,中间用-号隔开,然后紧跟着7到8位”数字,满足这个模式或规则的,即为固定电话号码。当然,正则表达式的能力不止于此,但基本原理和限制是一样的,那就是必须对要提取的信息的“模式”或“规则”是明确的、无歧义的。
在上述的合同关键信息提取中,用规则提取的方式可以实现如“甲方单位”信息提取,如图2所示的合同所示,其规则是:在“委托方:”之后,在换行符之前的文字,即为甲方单位信息。同理可以提取其它固定规则的信息。
规则方法的优点是可以实现精确的提取,但其缺点也很明显,包括:
1)主要适用于文档格式相对固定的文档,即“标准化”的文档。比如,上述合同甲方信息的提取,不适合于和上述模版不一样的其它合同文书——这个时候,就需要对合同进行分类,将格式一样的合同归为一类,对每一类合同编制特定的提取规则,导致工作量上升。
2)可移植性差。技术方案一的方法编制的规则,即使在大量的文档中应用,针对新的类型的文档,还需要做大量的工作,原有的成果基本不能复用;一旦文档的模版发生变化,所有的规则都得重新编写、测试,效率较低。
现有技术二:基于命名实体提取的方法
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体。命名实体分为通用命名实体识别和专用命名实体,其中,通用的命名实体识别是指针对三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)信息进行智能提取的技术,目前已经到达比较高的准确度;而专用命名实体,是针对以上类别之外的特定领域的信息提取,如医疗病例的提取,涉及到对症状、使用的药物等信息的提取,形成关联网络,理论上也可以获得类似“规则提取”的效果,提取特定含义的信息实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司信息通信分公司,未经国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司信息通信分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611033784.3/2.html,转载请声明来源钻瓜专利网。