[发明专利]一种基于大数据挖掘的洪涝灾害评估方法在审
申请号: | 202110049401.6 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112749905A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 张金良;雷添杰;吴迪;付健;徐瑞瑞;罗秋实 | 申请(专利权)人: | 黄河勘测规划设计研究院有限公司;中国水利水电科学研究院 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/26;G06F40/216;G06F40/242;G06F40/284;G06K9/62 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 何凡 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 挖掘 洪涝灾害 评估 方法 | ||
1.一种基于大数据挖掘的洪涝灾害评估方法,其特征在于,包括以下步骤:
S1、获取洪涝灾害数据,并对所述洪涝灾害数据进行分词处理;
S2、根据分词处理结果,对洪涝等级进行划分;
S3、利用词频统计方法统计洪涝等级划分结果中的高频词汇及其TF值,并根据统计结果构建特征词列表;
S4、对所述特征词列表进行共词分析;
S5、利用隐含狄利克雷分布模型构建洪涝主题模型,并通过所述洪涝主题模型建立洪涝主题,并通过洪涝灾害文本对应每个洪涝主题的概率得到文本中每个词对应每个洪涝主题的概率以及每个洪涝主题产生的次数;
S6、根据文本中每个词对应每个洪涝主题的概率以及每个洪涝主题产生的次数,利用共词分析结果得到每个地域发生洪涝等级的概率,完成基于大数据挖掘的洪涝灾害评估。
2.根据权利要求1所述的基于大数据挖掘的洪涝灾害评估方法,其特征在于,所述步骤S4包括以下步骤:
S401、对所述特征词列表中的词汇对以及名词短语共同出现的次数进行统计,确定分析数据集;
S402、利用洪涝等级划分结果确定洪涝等级的关键词;
S403、根据所述特征词列表构建二维矩阵;
S404、遍历所有特征词列表,构建全部特征词之间的组合,并判断所述组合是否在同一篇文本中出现,若是,则存入二维矩阵对应的位置,并构建共词矩阵,并进入步骤S405,否则,重复步骤S404;
S405、根据所述分析数据集、洪涝等级的关键词以及共词矩阵,完成对特征词列表的共词分析。
3.根据权利要求1所述的基于大数据挖掘的洪涝灾害评估方法,其特征在于,所述步骤S5中洪涝主题中词分布的表达式如下:
其中,表示洪涝主题中的词分布,表示第k个主题的词分布,表示第m个文档的词编号,Zi表示第i个词在主题中的编号,wi表示第i个词在字典中的序号,p(·)表示生成概率,表示主题下词的多项式分布的狄利克雷函数现验参数,Dir(·)表示隐含狄利克雷分布模型记录结果,第t个文档中k个主题中的词个数,V的总文档数,βt表示第t个文档下主题的多项式狄利克雷函数先验参数,t表示第一个文档。
4.根据权利要求1所述的基于大数据挖掘的洪涝灾害评估方法,其特征在于,所述步骤S5中洪涝主题的分布表达式如下:
其中,表示洪涝主题的分布,表示第m个文档的主题编号,Nm表示第m个文档包含的词总数,n表示文本中词的个数,zm,n表示第m个文档第n个词的主题编号,p(·)表示生成概率,表示第m个文档的主题分布,表示文档主题的多项式分布的狄利克雷函数现验参数,Dir(·)表示隐含狄利克雷分布模型记录结果,表示第k主题下的词分布向量,表示第m个文档中的词个数,表示第k主题文档中m个文档中的词个数,am表示第m个文档下主题的多项式狄利克雷函数先验参数,K表示主题总数。
5.根据权利要求1所述的基于大数据挖掘的洪涝灾害评估方法,其特征在于,所述步骤S5中各洪涝主题的相关性的表达式如下:
其中,labele表示各主题的相关性,xe表示样本,μj表示选择的f个类别中心,cj表示e个类别与f个类别中距离最近的类别,j表示e个类别与f个类别的某一的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黄河勘测规划设计研究院有限公司;中国水利水电科学研究院,未经黄河勘测规划设计研究院有限公司;中国水利水电科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110049401.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种黄河流域淤地坝空间分布识别方法
- 下一篇:减少楼板裂缝的早拆模板体系
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置