[发明专利]数据的收集方法及装置有效
申请号: | 201610222416.7 | 申请日: | 2016-04-11 |
公开(公告)号: | CN107291778B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 彭建华 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 江舟;李灵洁 |
地址: | 518057 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 收集 方法 装置 | ||
本发明提供了一种数据的收集方法及装置,其中,该方法包括:建立用于搜索待收集数据的关键字与对应包含关键字的网页地址的对应关系;循环获取对应关系中的网页地址;将获取到的网页地址传入线程进行爬取,并将爬取到的网页内容保存到内存中;通过预设方式获取内存中网页内容的文本内容,将获取到的文本内容保存到指定路径的文件中。通过本发明,解决了相关技术中对于水利舆情数据的收集的数据量过大,无用数据多,数据质量低的问题。
技术领域
本发明涉及互联网领域,具体而言,涉及一种数据的收集方法及装置。
背景技术
随着大数据及新媒体的快速发展,信息传播变得更加迅速、便捷,这就导致了信息管理的不确定、不可控。水污染、饮用水安全、水旱灾害等信息在新媒体时代被及时、快速传播,既对我们水环境进行了监督,也对我们及时发现水环境问题,规避潜在水风险提供了重要的渠道,水利热点舆情监测与应对,已经成为当前水利工作的重要部分。为此,水利部专门针对水利热点舆情进行了部署:成立专门机构、加大投入加大监测、编发舆情报告、更加注重分析。但是水利属于公益事业,现有实现技术难度高、资源投入大(计算机、网络资源),导致水利热点监测投入不足、监测手段少、信息上报不及时,致使水利部针对热点舆情的相关部署不能达到预期的效果。
由于舆情监测与分析的重要性,舆情在各个行业中都得到快速发展。文献《水利热点舆情监测与应对工作探讨》通过分析水利热点舆情监测与应对工作面临的形势要求和现状问题,借鉴行业内外科学经验,探索提出了具有可操作性的热点舆情监测与应对工作机制及保障措施;文献《水利工程舆情分析模型及指标体系设计》以水利工程舆情信息为主要研究对象,以马克思·H·博伊索特“信息空间理论”为理论依据,结合水利工程的社会特点,分析水利工程舆情信息分析指标体系。阐述了水利工程舆情信息在由编码、抽象、扩散三个维度构成的舆情信息空间的传播特性,分析了水利工程舆情信息在采邑、宗族、官僚制以及市场四个部落以及各个部落之间流动的特点,提取了舆情发布、舆情传播、舆情内容、舆情接收四大要素,并且以这四大要素为概念模型构建了水利工程舆情信息分析指标体系;专利《一种舆情信息展示系统及方法》公开了一种舆情信息展示系统及方法,涉及网络信息技术领域,所述系统包括:网页抓取模块,适于抓取当前网络中包含舆情信息的网页;网页分析模块,适于对所述网页进行分析,以获得所述网页的正文信息;地域识别模块,适于对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;展示模块,适于将所述数量统计的结果通过地图着色的方式进行展示;专利《一种网络舆情事件多维信息提取的方法及装置》提供了一种网络舆情事件多维信息提取的方法及装置,其中,所述方法包括:基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;依据所述主题按照预设时间段分时获取特征网页;获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。发明用以分析舆论事件,提高舆论事件分析的准确度。
可见相关技术中,虽然提出了针对不同舆情数据的收集、分析、处理方法,但这些方法用于水利行业的舆情数据收集,技术实现复杂、性能相对较低,收集的数据量过大,无用数据多,数据质量低,导致后续数据分析、挖掘难度增加、分析与挖掘结果精度降低等缺陷。针对相关技术中的上述问题,目前尚未存在有效的解决方案。
发明内容
本发明提供了一种数据的收集方法及装置,以至少解决相关技术中对于水利舆情数据的收集的数据量过大,无用数据多,数据质量低的问题。
根据本发明的一个方面,提供了一种数据的收集方法,包括:建立用于搜索待收集数据的关键字与对应包含所述关键字的网页地址的对应关系;循环获取所述对应关系中的网页地址;将获取到的网页地址传入线程进行爬取,并将爬取到的网页内容保存到内存中;通过预设方式获取所述内存中网页内容的文本内容,将获取到的文本内容保存到指定路径的文件中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610222416.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种热点数据识别和处理的方法和装置
- 下一篇:缓存数据管理方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置