[发明专利]一种特征数据抽取方法及装置在审
申请号: | 202111674913.8 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114359567A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 王飞;蔡伊林 | 申请(专利权)人: | 贵州爱信诺航天信息有限公司 |
主分类号: | G06V10/40 | 分类号: | G06V10/40 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 王妍 |
地址: | 550004 贵州省贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 数据 抽取 方法 装置 | ||
1.一种特征数据抽取的方法,其特征在于,包括:
确定来源信息,所述来源信息是指需要从中抽取特征数据的大段文字集合;
确定特征数据的定义特征,所述定义特征是在对所述来源信息进行抽取前,对希望抽取的特征数据的内容的特征概括;
根据所述特征数据的定义特征,从所述来源信息中对特征数据进行提取;提取出来的特征数据的特征为实际特征;
对抽取的特征数据的实际特征进行有效性验证,判断所述实际特征与定义特征是否有误差;
如果存在所述误差,则进行特征数据清洗,对提取出来的特征数据的实际特征与定义特征进行比对,对产生所述误差的步骤进行定位,优化所述定义特征;
优化所述定义特征后,根据设置确定后续流程,所述后续流程包括输出特征数据、重新确定定义特征、重新提取特征数据。
2.根据权利要求1所述的特征数据抽取的方法,其特征在于,一个所述来源信息中包括一组或多组名称与内容对应的特征数据,通过多个不同或者相同的分隔标记进行分隔;
所述分隔标记包括区分全角和半角的标点符号。
3.根据权利要求1所述的特征数据抽取的方法,其特征在于,所述定义特征的确定方式包括:特征数据的关键字符在所述来源信息的相对位置;所述关键字符的长度,所述关键字符在特征数据的所在位置;所述特征数据的长度;是否排除特别关键字符。
4.根据权利要求1所述的特征数据抽取的方法,其特征在于,所述特征数据验证包括:定义特征验证、人工验证、第三方平台接口调用验证和内部信息库验证。
5.根据权利要求4所述的特征数据抽取的方法,其特征在于,所述特征数据清洗包括:定义特征和实际特征之间的误差建立误差库,保存所述误差和发生的场景之间建立的对应关系,对产生误差的步骤进行定位,优化定义特征。
6.根据权利要求5所述的特征数据抽取的方法,其特征在于,所述定义特征优化是在特征数据清洗的基础上进行定义特征再次确定;
所述定义特征优化包括在人工管理平台中修正特征数据。
7.根据权利要求6所述的特征数据抽取的方法,其特征在于,所述后续流程的确定包括在人工管理平台提供设置。
8.一种特征数据抽取的装置,其特征在于,包括:
来源识别单元,用于生成需要进行特征数据抽取的来源信息,其中包括图片识别转换为文字的图片识别转换模块和文字粘贴模块;
定义特征单元,用于分析特征数据的定义特征,包括智能定义特征模块,所述智能定义特征模块用于根据已存在的特征数据,概括其长度、包含内容等定义特征进行概括;
信息提取单元,用于结合定义特征单元,对来源信息进行特征数据的抽取;
信息验证单元,用于通过输入特征数据,通过处理,输出特征数据的准确度;
信息清洗单元,用于对存在误差的特征数据进行处理,包括删除、入库、分析。
9.根据权利要求8所述的特征数据抽取的装置,其特征在于,还包括人工接入单元和流程定义单元,
所述人工接入单元,包括人工定义特征模块、人工修正特征数据模块、人工修正定义特征模块,所述人工定义特征模块应用于定义特征单元;
所述流程定义单元,用于确定定义特征优化在不同场景下的不同后续流程。
10.根据权利要求8所述的特征数据抽取的装置,其特征在于,所述人工接入单元用于确定定义特征的用途,所述用途包括,用于在来源信息进行特征数据的抽取和用于特征数据的校验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州爱信诺航天信息有限公司,未经贵州爱信诺航天信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111674913.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:全自动三极管CLIP组装线
- 下一篇:一株发酵乳杆菌及其应用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置