[发明专利]一种地震灾情信息处理方法及系统有效
申请号: | 201910260052.5 | 申请日: | 2019-04-02 |
公开(公告)号: | CN111382332B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 毕雪梅;左天惠;安立强 | 申请(专利权)人: | 江苏省地震局 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/955 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 程华 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地震 灾情 信息处理 方法 系统 | ||
1.一种地震灾情信息处理方法,其特征在于,所述方法包括:
对待抓取种子库中的种子进行权重设置,确定所述种子的抓取顺序;
所述对待抓取种子库中的种子进行权重设置,确定所述种子的抓取顺序具体包括:
根据所述待抓取种子库的种子的实时性、历史可信度和信息量,确定所述待抓取种子库中的种子的优先权和可信度;
根据所述优先权和可信度对所述种子进行权重设置;
删除所述权重低于权重阈值的种子对应的网络地址;
按照从高到低的顺序对所述权重进行排序;
按照所述抓取顺序对相应的所述种子进行信息抓取,获得灾情数据;
所述按照所述抓取顺序对相应的所述种子进行信息抓取,获得灾情数据具体包括:
自动访问中国地震台网网站识别震情,自动触发爬虫程序采集所述灾情数据;
手动启动所述爬虫程序采集所述灾情数据;
对所述灾情数据进行信息提取,得到灾情信息;
所述对所述灾情数据进行信息提取,得到灾情信息具体包括:
对抓取到的网页链接进行标准化处理获得完整链接;
获取所述完整链接的显示内容;
利用行块分布函数对所述显示内容的正文进行抽取,获得所述完整链接的正文内容;
利用正则表达式对所述显示内容进行时间的提取;
利用锚链接和超文本标记语言html标签对所述显示内容进行标题的提取;
结合所述正文内容、所述时间和所述标题,形成所述灾情信息;
对所述灾情信息进行去标签、去重和过滤处理,并分类统计地震震感信息和地震灾情信息;
所述对所述灾情信息进行去标签、去重和过滤处理,并分类统计地震震感信息和地震灾情信息具体包括:
根据正则表达式去除所述灾情信息的所述html标签;
判断原始数据库中是否存在所述灾情信息对应的网站地址,若存在所述网站地址,则去除所述网站对应的重复的信息;
对所述灾情信息进行地震事件相关性判断,若没有相关性则过滤没有相关性的信息;
对经过去标签、去重和过滤处理的所述灾情信息进行统计,得到所述震感信息和所述地震灾情信息;
将所述震感信息和所述地震灾情信息保存至数据库中,完成对所述数据库的更新。
2.一种地震灾情信息处理系统,其特征在于,所述系统包括:
抓取顺序确定单元,用于对待抓取种子库中的种子进行权重设置,确定所述种子的抓取顺序;
所述抓取顺序确定单元具体包括:
优先权和可信度确定模块,用于根据所述待抓取种子库的种子的实时性、历史可信度和信息量,确定所述待抓取种子库中的种子的优先权和可信度;
权重设置模块,用于根据所述优先权和可信度对所述种子进行权重设置;
删除模块,用于删除所述权重低于权重阈值的种子对应的网络地址;
排序模块,用于按照从高到低的顺序对所述权重进行排序;
抓取单元,用于按照所述抓取顺序对相应的所述种子进行信息抓取,获得灾情数据;
所述抓取单元具体包括:
自动访问模块,用于自动访问中国地震台网网站识别震情,自动触发爬虫程序采集所述灾情数据;
手动访问模块,用于手动启动所述爬虫程序采集所述灾情数据;
提取单元,用于对所述灾情数据进行信息提取,得到灾情信息;
所述提取单元具体包括:
标准化处理模块,用于对抓取到的网页链接进行标准化处理获得完整链接;
显示内容获取模块,用于获取所述完整链接的显示内容;
正文抽取模块,用于利用行块分布函数对所述显示内容的正文进行抽取,获得所述完整链接的正文内容;
时间提取模块,用于利用正则表达式对所述显示内容进行时间的提取;
标题提取模块,用于利用锚链接和超文本标记语言html标签对所述显示内容进行标题的提取;
灾情信息形成模块,用于结合所述正文内容、所述时间和所述标题,形成所述灾情信息;
处理单元,用于对所述灾情信息进行去标签、去重和过滤处理,并分类统计地震震感信息和地震灾情信息;
所述处理单元具体包括:
去标签模块,用于根据正则表达式去除所述灾情信息的所述html标签;
去重模块,用于判断原始数据库中是否存在所述灾情信息对应的网站地址,若存在所述网站地址,则去除所述网站对应的重复的信息;
过滤模块,用于对所述灾情信息进行地震事件相关性判断,若没有相关性则过滤没有相关性的信息;
统计模块,用于对经过去标签、去重和过滤处理的所述灾情信息进行统计,得到所述震感信息和所述地震灾情信息;
数据库更新模块,用于将所述震感信息和所述地震灾情信息保存至数据库中,完成对所述数据库的更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省地震局,未经江苏省地震局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910260052.5/1.html,转载请声明来源钻瓜专利网。