[发明专利]一种数据提取方法和装置在审
申请号: | 201910185914.2 | 申请日: | 2019-03-12 |
公开(公告)号: | CN110046345A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 斯义谱 | 申请(专利权)人: | 同盾控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 311121 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数值信息 文本信息 句法特征 方法和装置 分析模型 数据提取 关联关系确定 分析处理 关联关系 语义关系 预先确定 准确率 预设 文本 申请 分析 | ||
1.一种数据提取方法,其特征在于,所述方法包括:
确定待识别文本信息;
利用预先确定的分析模型,对所述待识别文本信息进行分析处理,以获取所述待识别文本信息中的数值信息和句法特征信息,所述数值信息中包括至少一个数值和所述数值对应的信息;
在所述数值信息中包括多个数值的情况下,根据所述句法特征信息和所述数值信息,确定所述待识别文本信息中的目标执行数值。
2.根据权利要求1所述的方法,其特征在于,所述确定待识别文本信息,包括:
获取待识别文本中的字符串信息;
对所述字符串信息进行标准化处理,得到所述待识别文本信息;
其中,所述标准化处理包括字符格式处理、中文数字格式处理、数字单位处理中的一者或者多者。
3.根据权利要求1所述的方法,其特征在于,所述分析模型中包括数据识别模型和句法分析模型,所述利用预先确定的分析模型,对所述待识别文本信息进行分析处理,以获取所述待识别文本信息中的数值信息和句法特征信息,包括:
利用所述数据识别模型,获取所述待识别文本信息中的所述数值信息;所述数值对应的信息包括所述数值信息中每个数值所对应的名称;
利用所述句法分析模型,获取所述待识别文本信息中的所述句法特征信息。
4.根据权利要求1所述的方法,其特征在于,所述在所述数值信息中包括多个数值的情况下,根据所述句法特征信息和所述数值信息,确定所述待识别文本信息中的目标执行数值,包括:
根据所述句法特征信息和所述名称,确定所述多个数值之间的关联关系;
根据所述关联关系,确定对所述多个数值进行处理的计算策略;
利用所述计算策略,确定待筛选数值信息,所述待筛选数值信息中包括由所述数值信息中的多个数值计算得到的多个待筛选数值;
根据所述句法特征信息,将符合筛选条件的待筛选数值作为所述目标执行数值。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述数值信息中包括一个数值的情况下,将所述数值确定为所述目标执行数值。
6.一种数据提取装置,其特征在于,所述装置包括:
信息确定模块,用于确定待识别文本信息;
信息处理模块,用于利用预先确定的分析模型,对所述待识别文本信息进行分析处理,以获取所述待识别文本信息中的数值信息和句法特征信息,所述数值信息中包括至少一个数值和所述数值对应的信息;
数值确定模块,用于在所述数值信息中包括多个数值的情况下,根据所述句法特征信息和所述数值信息,确定所述待识别文本信息中的目标执行数值。
7.根据权利要求6所述的装置,其特征在于,所述信息确定模块,包括:
信息获取子模块,用于获取待识别文本中的字符串信息;
信息处理子模块,用于对所述字符串信息进行标准化处理,得到所述待识别文本信息;
其中,所述标准化处理包括字符格式处理、中文数字格式处理、数字单位处理中的一者或者多者。
8.根据权利要求6所述的装置,其特征在于,所述分析模型中包括数据识别模型和句法分析模型,所述信息处理模块,用于:
利用所述数据识别模型,获取所述待识别文本信息中的所述数值信息;所述数值对应的信息包括所述数值信息中每个数值所对应的名称;
利用所述句法分析模型,获取所述待识别文本信息中的所述句法特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同盾控股有限公司,未经同盾控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910185914.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:添加分隔符的方法及终端设备
- 下一篇:一种语料意图监控的方法和装置、终端设备