[发明专利]数据提取方法、装置、计算机设备和存储介质在审
申请号: | 201811052467.5 | 申请日: | 2018-09-10 |
公开(公告)号: | CN109359176A | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 叶素兰;窦文伟;胡义品;于修铭;汪伟;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/31 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请涉及一种基于数据资源的数据提取方法、装置、计算机设备和存储介质。所述方法包括:获取待提取数据,并获取待提取数据中的证据项,根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对,当证据项数据包括预设规则所对应的数据时,提取证据项中的文本,对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列,获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列,利用可用频繁序列从文本中提取与用户需求对应的数据。采用本方法能够避免人工进行数据审查以及人工泛化正则表达式的过程,减少人工操作,节约资源。 | ||
搜索关键词: | 频繁序列 证据 关联指标 计算机设备 存储介质 数据提取 提取数据 预设规则 文本 分词 可用 正则表达式 节约资源 人工操作 数据处理 数据审查 数据资源 序列生成 样本数据 用户需求 预先设置 比对 筛选 申请 | ||
【主权项】:
1.一种数据提取方法,所述方法包括:获取待提取数据,并获取所述待提取数据中的证据项;根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;利用所述可用频繁序列从文本中提取与用户需求对应的数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811052467.5/,转载请声明来源钻瓜专利网。