[发明专利]数据处理的方法及装置有效
申请号: | 201811141057.8 | 申请日: | 2018-09-28 |
公开(公告)号: | CN111061940B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 何熠皓 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/289 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本发明公开了一种数据处理的方法及装置,涉及数据处理技术领域,主要目的在于解决现有的爬取到的数据存在可读性较差的问题。本发明的方法包括:确定待处理数据中是否存在目标信息;若是,则根据预设规则对所述目标信息进行处理,得到目标数。本发明适用于数据的处理的过程中。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理的方法及装置。
背景技术
随着网络技术的不断发展,爬虫的使用也逐步增多。通常,当爬虫爬取到数据后,由于爬虫对于被爬取的数据并不会进行解析和识别,因此,用户在读取此类被爬取到的数据时,并不能直接识别,而是需要使用相关的解析工具,将被爬取到的数据解析成用户能够直接识别和分析的数据。
目前,在爬取数据时,仅从目标网站或页面中对其中的数据内容进行爬取,然而,在实际应用中,由于爬虫作为生产端,其爬取的数据对于消费端的用户而言,需要选取额外的数据解析工具对被爬取的数据进行解析,然后才能对解析后的数据进行后续的分析和识别,因此,现有的爬取的数据对于用户而言,存在可读性较差的问题。
发明内容
鉴于上述问题,本发明提供一种数据处理的方法及装置,主要目的在于解决现有的爬取到的数据存在可读性较差的问题。
为解决上述技术问题,第一方面,本发明提供了一种数据处理的方法,该方法包括:
确定待处理数据中是否存在目标信息;
若是,则根据预设规则对所述目标信息进行处理,得到目标数据。
可选的,所述目标信息包括时间信息,所述根据预设规则对所述目标信息进行处理,得到目标数据,包括:
确定所述时间信息中是否包含完整的日期信息,所述日期信息包括:年信息、月信息和日信息;
若包含,则将所述完整的日期信息中的年信息、月信息和日信息,按照预设顺序排列,生成所述目标数据;或者,
若不包含,则确定所述时间信息中缺失的信息内容;
若所述时间信息中缺失年信息,则获取系统时间的年信息,并根据所述时间信息中的月信息、日信息以及所述系统时间的年信息得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息中缺失月信息,则获取第一预设占位符作为月信息,并根据所述日期信息中的年信息、日信息及所述第一预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息缺失日信息,则获取第二预设占位符作为日信息,并根据所述日期信息中的年信息、月信息及所述第二预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据;或者,
若所述时间信息缺失月信息及日信息,则获取第三预设占位符作为月信息及日信息,并根据所述日期信息中的年信息及所述第三预设占位符得到补充完整的日期信息,并根据补充完整的日期信息生成所述目标数据。
可选的,所述时间信息还包括时刻信息,在生成所述目标数据前,所述方法还包括:
获取所述完整的日期信息或补充完整的日期信息;
获取时刻信息;
将所述时刻信息与所述完整的日期信息进行拼接,或,将所述时刻信息与所述补全完整的日期信息进行拼接,生成所述目标数据。
可选的,所述时间信息还包括时间指代特征,所述根据预设规则对所述目标信息进行处理,得到目标数据,包括:
当所述时间指代特征为相对时间量词时,获取当前时间信息,并根据当前时间信息与相对时间量词中的偏移量计算绝对时间,将所述绝对时间确定为所述目标时间;和/或,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811141057.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网站的更新方法、装置及系统
- 下一篇:一种泮托拉唑钠肠溶片的制备方法