[发明专利]一种数据处理方法、装置及设备在审
申请号: | 202210027767.8 | 申请日: | 2022-01-11 |
公开(公告)号: | CN114429116A | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 秦建斌;林心薇;狄鹏;王月凡;刘向阳 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/216;G06F40/154;G06F16/25 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 刘立升 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 | ||
1.一种数据处理方法,所述方法包括:
获取待处理数据;
对所述待处理数据进行泛化,获得泛化数据;对所述泛化数据进行模板抽取,获得所述泛化数据的子结构,所述泛化数据的子结构满足预设的数据模式;
对所述泛化数据的子结构进行模板细化,获得所述待处理数据的数据模式。
2.如权利要求1所述的方法,所述获取待处理数据,进一步包括:
将所述待处理数据与上一个时间点的待处理数据进行增量计算,确定所述待处理数据中属于当前时间点的待处理数据。
3.如权利要求2所述的方法,所述将所述待处理数据与上一个时间点的待处理数据进行增量计算,确定所述待处理数据中属于当前时间点的待处理数据,具体包括:
将所述上一个时间点的待处理数据的数据约束状态定义为所述待处理数据的数据提交情况,确定所述待处理数据中属于当前时间点的待处理数据。
4.如权利要求1所述的方法,所述对所述待处理数据进行泛化,获得泛化数据,具体包括:
以所述待处理数据中的每个字符作为泛化树的叶子节点;
将所述叶子节点映射到上层的分支节点,实现所述待处理数据中的字符的泛化,获得泛化字符;
基于所述待处理数据的泛化字符,采用贪心算法选择最优的泛化等级,获得所述泛化数据。
5.如权利要求3所述的方法,所述采用贪心算法确认泛化等级,获得所述泛化数据,具体包括:
以语义距离作为所述贪心算法的优化测度,选择最优的泛化等级,获得所述泛化数据。
6.如权利要求1所述的方法,所述模板抽取包括循环结构划分和竖直结构划分,所述对所述泛化数据进行模板抽取,获得所述泛化数据的子结构,具体包括:
基于所述泛化数据中的特殊字符及空格进行循环结构划分,和/或基于所述泛化数据所包括的各个数据进行竖直结构划分,获得模板候选集;
基于距离最小原则,从所述候选模板候选集中选择子结构,作为所述泛化数据的子结构。
7.如权利要求6所述的方法,所述基于所述泛化数据中的特殊字符及空格进行循环结构划分,和/或基于所述泛化数据所包括的各个数据进行竖直结构划分,获得模板候选集,具体包括:
基于所述泛化数据中的特殊字符集空格进行循环结构划分,计算所述泛化数据中的各个数据之间的循环距离,当所述循环距离小于预设的第一相似度阈值时,将所述循环结构划分获得的子结构作为候选结构加入模板候选集;
和/或
基于所述泛化数据所包括的各个数据进行竖直结构划分,计算所述泛化数据中的各个数据之间的竖直距离,当所述竖直距离小于预设的第二相似度阈值时,将所述竖直结构划分获得的子结构作为候选结构加入模板候选集。
8.如权利要求1所述的方法,所述预设的数据模式为正则表达式结构,所述对所述泛化数据的子结构进行模板细化,获得所述待处理数据的数据模式,具体包括:
对所述泛化数据的子结构中的中间节点细化为叶子节点,获得所述待处理数据的数据模式。
9.如权利要求1所述的方法,所述对所述泛化数据的子结构进行模板细化,获得所述待处理数据的数据模式,具体包括:
基于所述泛化数据的子结构的各个部分,使用统计的方法确定所述泛化数据的子结构的各个部分的频繁单词;
将所述频繁单词与非频繁单词构成正则表达式的字母表;
基于所述字母表对所述泛化数据的子结构进行模板细化,获得所述待处理数据的数据模式。
10.如权利要求1所述的方法,所述待处理数据为键值类型数据或者可以转化为键值类型数据的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210027767.8/1.html,转载请声明来源钻瓜专利网。