[发明专利]一种基于社会信号的灾害性气象热点事件识别方法有效
申请号: | 201810345881.9 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108595582B | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 牛振东;朱一凡;陆浩;时恺泽 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 毛燕 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社会 信号 灾害性 气象 热点 事件 识别 方法 | ||
1.一种基于聚类特征模型的灾害性气象热点事件识别方法,其特征在于:其具体操作步骤为:
步骤一、构建灾害性气象关键词典;
步骤1.1:从网络系统中获取包含气象信息的新闻和微博文本,构成训练语料库,用符号ArticleSet表示;
步骤1.2:选取国家标准《GB/T 27962-2011气象灾害预警信号图标》规定的14种气象灾害名称,作为灾害性气象关键词基础词集,用符号KeywordDict_init表示;KeywordDict_init={台风,暴雨,暴雪,寒潮,大风,沙尘暴,高温,干旱,雷电,雹,霜冻,大雾,霾,道路结冰};
表1 GB/T 27962-2011中规定的灾害性气象分类及预警级别
分类 预警级别 台风 蓝、黄、橙、红 暴雨 蓝、黄、橙、红 暴雪 蓝、黄、橙、红 寒潮 蓝、黄、橙、红 大风 蓝、黄、橙、红 沙尘暴 黄、橙、红 高温 黄、橙、红 干旱 橙、红 雷电 黄、橙、红 雹 橙、红 霜冻 蓝、黄、橙 大雾 黄、橙、红 霾 黄、橙 道路结冰 黄、橙、红
步骤1.3:确定训练语料库,用符号ArticleSet表示;并对训练语料库ArticleSet进行分词处理,得到分词语料库,用符号ArticleSet_S表示;
步骤1.4:使用Word2vec方法对分词语料库ArticleSet_S中的词语进行空间坐标化,得到词语与空间坐标一一对应的词语向量化模型;所述词语向量化模型的作用是:向词语向量化模型输入一个词语就能得到与之对应的向量值;
步骤1.5:构建灾害性气象关键词扩展词集,用符号KeywordDict表示;具体操作为:
步骤1.5.1:使用步骤1.4得到的词语向量化模型得到分词语料库ArticleSet_S中所有词语对应的词语向量;
步骤1.5.2:设置灾害性气象关键词扩展词集KeywordDict的初始值与灾害性气象关键词基础词集KeywordDict_init相同;
步骤1.5.3:遍历灾害性气象关键词扩展词集KeywordDict中的每一个词,用符号kwp表示;依次计算词语kwp分别与分词语料库ArticleSet_S中除kwp以外的任意一个词语kwj之间的坐标距离Dis(kwp,kwj),其中p,j为正整数,且p≠j;然后选取坐标距离Dis(kwp,kwj)中最小的前n个词语作为灾害性气象扩展关键词,填充入灾害性气象关键词扩展词集KeywordDict中,n为人为设定值,n为正整数;
步骤1.5.4:将步骤1.5.1至步骤1.5.3重复m次,得到灾害性气象关键词扩展词集KeywordDict;m为人为设定值,m为正整数;
经过上述步骤的操作,得到灾害性气象关键词扩展词集KeywordDict;
步骤1.6采集动态社会信号;具体为:依次使用步骤1.5得到的灾害性气象关键词扩展词集KeywordDict作为检索关键词,使用爬虫程序按照预先设定的时间间隔,动态采集网络中含有所述检索关键词的新闻和微博文本,构建社会信号数据库;所述社会信号数据库包括检索关键词、新闻和微博文本、时间标签;
步骤二、对社会信号数据库中的数据进行预处理和特征提取;具体操作为:
步骤2.1:对社会信号数据库中的数据进行正向或反向过滤,得到清洗后的社会信号数据库;
步骤2.2:用符号si表示社会信号数据库中的任意一条记录,其中,i∈[1,m],其中m表示社会信号数据库中的总记录数;
步骤2.3根据目标区域的地理行政划分,构建地名词库PN;使用符号pnK表示地名词库PN中的任意一地理名词;
所述地名坐标库包括:目标区域内的地理名称以及各地理名称所对应的经度和纬度;用符号LatK表示地理名词pnK对应的纬度,LngK为地理名词pnk对应的经度;
步骤2.4对社会信号数据库中的每一条记录si进行分词,形成词序列,用符号s′i表示;s′i=wi1wi2...wiq;其中wi1,wi2…wiq分别表示词序列s′i中的q个词,q为正整数;
步骤2.5抽取社会信号数据库中的每一条记录si的空间特征,用符号fi表示;具体步骤如下:
步骤2.5.1:对每一条记录si对应的词序列s′i,使用地名词库PN提取其包含的所有地名;用符号pnk表示使用地名词库PN在序列s′i中提取出来的任一地理名词;
步骤2.5.2使用公式(1)计算在社会信号数据库中记录si对应的检索关键词kw与步骤2.5.1得到的所有地名在词序列s′i上的语义距离,用符号Ds(pnk,kw)表示;
其中,idx(pnk)和idx(kw)分别表示词语pnk和kw在词序列s′i中的绝对位置;d=1或2;m′表示词序列s′i中所包含词语的个数;
步骤2.5.3对每条记录si,选取使得语义距离最小的词语pnk对应的经、纬度坐标作为社会信号数据库中记录si的空间特征fi,fi=(Lati,Lngi),Lati和Lngi分别表示使得语义距离最小的词语pnk对应的经、纬度坐标;
步骤2.6:抽取每条记录si的时间特征,用符号ti表示;
所述记录si的时间特征为记录si在社会信号数据库中对应的时间标签;
步骤2.7抽取每条记录si的气象特征,用符号wti表示;
所述记录si的气象特征为记录si在社会信号数据库中对应的检索关键词在灾害性气象关键词词典中所属的分类;
步骤2.8:使用每条记录si的空间特征fi、时间特征ti和气象特征wti构建信号空间数据库;
通过上述步骤,完成对社会信号数据库中的数据的预处理和特征提取;
步骤三、发现与识别灾害性气象事件;
在步骤二的基础上,发现与识别灾害性气象事件;具体操作步骤为:
步骤3.1社会信号聚类;具体步骤如下:
步骤3.1.1确定起始时间和终止时间,分别用符号tstart和tend表示;
步骤3.1.2确定并构建信号点集,用符号PSet表示;
根据起始时间tstart和终止时间tend,选取步骤2.8中得到的信号空间数据库中满足在上述两个时间之间的全部记录;根据记录的空间特征、时间特征和气象特征,将每条记录映射到聚类空间中一个点,用符号(Lati,Lngi,ti,wti)表示;
步骤3.1.3通过公式(3)对待聚类点集PSet中每个点的时间特征ti做正则化处理,得到正则化处理后的时间特征坐标,用符号表示;
其中,w为压缩参数,b为平移参数,w和b均为实数,由人为设定;
步骤3.1.4用符号P1和P2表示待聚类点集PSet中的任意两点,计算待聚类点集PSet中任意两点P1和P2之间的距离,用符号Dis_pt(P1,P2)表示;
步骤3.2对待聚类点集PSet中的点根据两点之间的距离Dis_pt(P1,P2)进行聚类,得到对待聚类点集PSet的一个划分:且满足
通过上述步骤的操作,得到对社会信号点集PSet的聚类结果;
步骤3.3:将每一个SubPSetr识别为一个候选灾害性气象事件,并计算每个SubPSetr中包含的点的数量Nr和SubPSetr中任意两点之间最长的距离LDr;
步骤3.4:对每一个候选灾害性气象事件SubPSetr,通过公式(4)计算其热度,用符号Hr表示;
步骤3.5:取Hi值最高的前N个候选灾害性气象事件作为灾害性气象热点事件进行展示;N为人为设定值,N为正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810345881.9/1.html,转载请声明来源钻瓜专利网。