[发明专利]离线字段校验方法、装置、设备及计算机可读存储介质有效
申请号: | 201910694482.8 | 申请日: | 2019-07-30 |
公开(公告)号: | CN110598466B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 吴自龙 | 申请(专利权)人: | 百度时代网络技术(北京)有限公司 |
主分类号: | G06F21/64 | 分类号: | G06F21/64;G06F16/953;G06F16/957 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
地址: | 100085 北京市海淀区东*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离线 字段 校验 方法 装置 设备 计算机 可读 存储 介质 | ||
本发明提供一种离线字段校验方法、装置、设备及计算机可读存储介质,方法包括:通过预设的消息中间件,从线上字段数据中获取离线字段数据;对所述离线字段数据进行数据处理,获得样本数据;根据所述样本数据生成基准Schema;通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果。从而能够在实现对线上字段数据合法性验证的同时,节约计算资源,并提高在线业务的数据时效性。
技术领域
本发明涉及计算机领域,尤其涉及一种离线字段校验方法、装置、设备及计算机可读存储介质。
背景技术
在互联网信息流推荐技术中,海量的数据需要做各种策略处理,内容存储,无数的字段被产生,一级字段嵌套二级字段,甚至多级字段,这些字段共同构成一条完整的数据消息。这些消息在数据流上进行流动的过程中,经过一系列模块的处理,融合,交叉改变,促成了字段数量的爆炸性增长以及字段和值的多样性和不可预测性。这种不可预测性,往往会给系统带来很多安全隐患,比如相同字段类型的多样性,理论上一个字段在客户端和服务端协议好的格式下,应该有且只有一种类型,这种类型在整个系统中自始至终应该保持高度一致,如果类型发生变更,出现了二义性,可能会导致系统宕机等风险。
为了实现对字段的校验,现有技术中一般都是在线对字段进行校验。具体地,服务端接收到客户端发送的数据时,线上对该数据进行字段校验,并将校验成功的字段对应的数据存储至预设的存储路径中。
但是,采用上述方法进行字段校验时,在字段类型、值校验方面比较有优势,但是由于需要对全量字段的值和类型进行校验,当字段层级较多时,校验复杂度也随之上升,而且,全量字段基准化配置xml文件的生成工作的繁琐程度也将随之升高,占用线上计算资源较多,因此当数据字段和层级比较庞大的情况下,在线业务的数据时效性也会受到影响。
发明内容
本发明提供一种离线字段校验方法、装置、设备及计算机可读存储介质,用于解决现有的字段校验技术在线上字段校验过程中,占用线上计算资源较多,时效性较差的技术问题。
本发明的第一个方面是提供一种离线字段校验方法,包括:
通过预设的消息中间件,从线上字段数据中获取离线字段数据;
对所述离线字段数据进行数据处理,获得样本数据;
根据所述样本数据生成基准Schema;
通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果。
本发明的另一个方面是提供一种离线字段校验装置,包括:
获取模块,用于通过预设的消息中间件,从线上字段数据中获取离线字段数据;
数据处理模块,用于对所述离线字段数据进行数据处理,获得样本数据;
生成模块,用于根据所述样本数据生成基准Schema;
校验模块,用于通过所述基准Schema对所述消息中间件实时获取到的离线字段数据的合法性进行校验,获得校验结果。
本发明的又一个方面是提供一种离线字段校验设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:由所述处理器执行如第一方面所述的离线字段校验方法。
本发明的又一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的离线字段校验方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度时代网络技术(北京)有限公司,未经百度时代网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910694482.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于软件大数据的收集防丢失系统
- 下一篇:一种内存数据块完整性检验方法