[发明专利]一种特征数据抽取方法及装置在审
申请号: | 202111674913.8 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114359567A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 王飞;蔡伊林 | 申请(专利权)人: | 贵州爱信诺航天信息有限公司 |
主分类号: | G06V10/40 | 分类号: | G06V10/40 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 王妍 |
地址: | 550004 贵州省贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 数据 抽取 方法 装置 | ||
一种特征数据抽取的方法,包括:确定来源信息;确定特征数据的定义特征;对特征数据进行提取;对抽取的特征数据的实际特征进行有效性验证;判断所述实际特征与定义特征是否有误差;如果存在所述误差,则进行特征数据清洗;对产生误差的步骤进行定位,优化所述定义特征;设置确定后续流程。通过本发明可以提高对敏感度要求高的特征数据的抽取准确性。
技术领域
本发明属于数据处理和识别领域,尤其涉及一种特征数据抽取方法和装置。
背景技术
企业信息集中管理时,企业名称、组织代码等信息要求准确,而在大量录入时存在格式不统一,人工录入容易出错等问题。虽然现在有很多文字识别的方案,而对于一些比较复杂的数据,在采用了自动采集的方式进行处理后,存在一些误差,因此需要一些方法,在每一次产生误差时的纠错、纠错原因进行整理和分类,以用于复杂场景中信息的再次处理,并避免相同的误差再次发生。
现有许多方案,可以识别复制的文字、图片,在图片中识别文字,并其中进行特征数据的识别,如申请号为201710318767.2的专利申请。但对于税务、金融等行业管理的信息,识别的信息敏感,数字编码长,容易出错,同时人工校验存在难度,因此需要一套机制来提高识别的准确性。
发明内容
本发明目的在于提供一种特征数据抽取的方法和装置,通过对来源信息中的特征数据的定义特征进行定义、确认、不断优化,以提高敏感度要求高的特征数据的抽取准确性。
为解决上述技术问题,本发明提供了一种特征数据抽取的方法,其方法步骤包括:
确定来源信息,所述来源信息,是指需要从中抽取特征数据的大段文字集合;
确定特征数据的定义特征,其中定义特征是在对来源信息进行抽取前,对希望抽取的特征数据的内容的特征概括;
根据特征数据的定义特征,从来源信息中对特征数据进行提取;提取出来的特征数据的特征为实际特征;
对抽取的特征数据的实际特征进行有效性验证,判断实际特征与定义特征是否有误差;
如果存在误差,则进行特征数据清洗,对提取出来的特征数据的实际特征与定义特征进行比对,对产生误差的步骤进行定位,优化定义特征;
优化所述定义特征后,根据设置确定后续流程,包括输出特征数据、重新确定定义特征、重新提取特征数据。
另一方面,本发明还提供了一种特征数据抽取的装置,包括,来源识别单元,用于生成需要进行特征数据抽取的文字信息,其中包括图片识别转换为文字单元;
定义特征单元,用于分析特征数据的定义特征,其中包括智能定义特征模块,用于根据已存在的特征数据,概括长度、包含内容等定义特征;
信息提取单元,用于结合定义特征单元,对来源信息进行特征数据的抽取;
信息验证单元,用于通过输入特征数据,通过处理,输出特征数据的准确度;
信息清洗单元,用于对存在误差的特征数据进行处理,包括删除、入库、分析。
进一步的,特征数据抽取的装置,还包括人工接入单元和流程定义单元,人工接入单元,包括人工定义特征模块、人工修正特征数据模块、人工修正定义特征模块,其中人工定义特征模块应用于定义特征单元;
流程定义单元,用于确定定义特征优化在不同场景下的不同后续流程。
同时,人工接入单元还可以用于确定定义特征的用途,如,某一个定义特征是用于在来源信息进行特征数据的抽取或者是用于特征数据的校验。
本发明提供的特征数据抽到的方法和装置,特征数据进行定义、抽取、再修正,不断地优化定义特征和整个流程,对场景和误差的数据进行了积累和分析,提高了敏感的特征数据的抽取准确率,提高工作效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州爱信诺航天信息有限公司,未经贵州爱信诺航天信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111674913.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:全自动三极管CLIP组装线
- 下一篇:一株发酵乳杆菌及其应用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置