[发明专利]一种数据处理方法、装置及设备在审
申请号: | 202210027767.8 | 申请日: | 2022-01-11 |
公开(公告)号: | CN114429116A | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 秦建斌;林心薇;狄鹏;王月凡;刘向阳 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/216;G06F40/154;G06F16/25 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 刘立升 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 | ||
本说明书实施例公开了一种数据处理方法、装置及设备。所述方法包括:获取待处理数据;对所述待处理数据进行泛化,获得泛化数据;对所述泛化数据进行模板抽取,获得所述泛化数据的子结构,所述泛化数据的子结构满足预设的数据模式;对所述泛化数据的子结构进行模板细化,获得所述待处理数据的数据模式。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
自动模式识别或者自动模式发现是指无需人为干扰,机器能自动把具体的样本归类到某一个模式。现有的自动模式发现技术主要是针对结构化的数据,自动指定字符串的模式。但是由于现有的自动模式发现技术,针对的结构化的数据,且假设结构化的数据中不包含嵌套的子结构,把结构化的数据视为最小的原子单位,显然现有技术并不能对键值类型数据进行自动模式发现。此外,现有的自动模式发现技术中,时间消耗通常随着数据长度的增加而呈指数增长,因此,现有技术也不能对长文本数据进行自动模式发现。
基于此,需要一种新的方法,能够进行键值类型数据的内部结构的发现,而且能够解决长文本数据的内部结构的发现。
发明内容
本说明书实施例提供一种数据处理方法、装置及设备,用于解决以下技术问题:现有的自动模式发现技术,针对的结构化的数据,且假设结构化的数据中不包含嵌套的子结构,把结构化的数据视为最小的原子单位,显然现有技术并不能对键值类型数据进行自动模式发现。此外,现有的自动模式发现技术中,时间消耗通常随着数据长度的增加而呈指数增长,因此,现有技术也不能对长文本数据进行自动模式发现。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供一种数据处理方法,包括:
获取待处理数据;
对所述待处理数据进行泛化,获得泛化数据;
对所述泛化数据进行模板抽取,获得所述泛化数据的子结构,所述泛化数据的子结构满足预设的数据模式;
对所述泛化数据的子结构进行模板细化,获得所述待处理数据的数据模式。
本说明书实施例还提供一种数据处理装置,包括:
获取模块,获取待处理数据;
泛化模块,对所述待处理数据进行泛化,获得泛化数据;
模板抽取模块,对所述泛化数据进行模板抽取,获得所述泛化数据的子结构,所述泛化数据的子结构满足预设的数据模式;
模板细化模块,对所述泛化数据的子结构进行模板细化,获得所述待处理数据的数据模式。
本说明书实施例还提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取待处理数据;
对所述待处理数据进行泛化,获得泛化数据;
对所述泛化数据进行模板抽取,获得所述泛化数据的子结构,所述泛化数据的子结构满足预设的数据模式;
对所述泛化数据的子结构进行模板细化,获得所述待处理数据的数据模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210027767.8/2.html,转载请声明来源钻瓜专利网。