[发明专利]一种地震灾情信息处理方法及系统有效
申请号: | 201910260052.5 | 申请日: | 2019-04-02 |
公开(公告)号: | CN111382332B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 毕雪梅;左天惠;安立强 | 申请(专利权)人: | 江苏省地震局 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/955 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 程华 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地震 灾情 信息处理 方法 系统 | ||
本发明公开一种地震灾情信息处理方法及系统,通过对待抓取种子库中的种子进行权重设置,根据权重信息对种子进行信息抓取,获得灾情数据,对灾情数据进行信息提取后得到灾情信息,然后对灾情信息进行去标签、去重和过滤处理,然后统计地震震感信息和地震灾情信息,更新数据库信息。本发明对种子进行权重设置,按照权重顺序进行抓取排序,提高了抓取信息的高效性,并且对灾情信息进行去标签、去重和过滤处理,使得对地震信息的采集和处理更加高效和准确。
技术领域
本发明涉及信息处理领域,特别是涉及一种地震灾情信息处理方法及系统。
背景技术
自汶川地震以来,地震灾害逐步受到全社会的重视以及国内外媒体的广泛关注。地震灾害的程度、影响范围、发展趋势、社会影响、次生灾害、应急救援进展等灾情信息的快速准确获取和处理是整个地震应急救援工作的核心,也是应急指挥决策的关键。但是目前的地震灾情信息采集还存在一些问题,主要表现为:(1)网络信息采集主要靠人工采集,时间紧、任务重、效率低;(2)采集错误率高,容易将往期地震或者近期地震的灾情信息误作为当前地震的信息进行采集;(3)网络信息程序采集误采率高、无效信息多,主要表现为:网页上的广告、无效链接和文件多,采集到的很多地震信息与当前地震事件或者与地震应急救援无关的信息多;(4)网络信息程序采集到的新闻信息重复率高(有时甚至多达50-80%)。这些问题,导致震后灾情信息处理难度高、工作量大、效率低、准确率低。因此,无法满足应急救援和指挥决策的需求。
发明内容
本发明的目的是提供一种地震灾情信息处理方法及系统,提高了信息采集和处理的效率和准确性。
为实现上述目的,本发明提供了如下方案:
一种地震灾情信息处理方法,所述方法包括:
对待抓取种子库中的种子进行权重设置,确定所述种子的抓取顺序;
按照所述抓取顺序对相应的所述种子进行信息抓取,获得灾情数据;
对所述灾情数据进行信息提取,得到灾情信息;
通过对所述灾情信息进行去标签、去重和过滤处理,并分类统计地震震感信息和地震灾情信息。
可选的,所述对待抓取种子库中的种子进行权重设置,确定所述种子的抓取顺序具体包括:
根据所述待抓取种子库的种子的实时性、历史可信度和信息量,确定所述待抓取种子库中的种子的优先权和可信度;
根据所述优先权和可信度对所述种子进行权重设置;
删除所述权重低于权重阈值的种子对应的网络地址;
按照从高到低的顺序对所述权重进行排序。
可选的,所述按照所述抓取顺序对相应的所述种子进行信息抓取,获得灾情数据具体包括:
自动访问中国地震台网网站识别震情,自动触发爬虫程序采集所述灾情数据;
手动启动所述爬虫程序采集所述灾情数据。
可选的,所述对所述灾情数据进行信息提取,得到灾情信息具体包括:
对抓取到的网页链接进行标准化处理获得完整链接;
获取所述完整链接的显示内容;
利用行块分布函数对所述显示内容的正文进行抽取,获得所述完整链接的正文内容;
利用正则表达式对所述显示内容进行时间的提取;
利用锚链接和超文本标记语言html标签对所述显示内容进行标题的提取;
结合所述正文内容、所述时间和所述标题,形成所述灾情信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省地震局,未经江苏省地震局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910260052.5/2.html,转载请声明来源钻瓜专利网。