[发明专利]一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法有效
申请号: | 202210807776.9 | 申请日: | 2022-07-11 |
公开(公告)号: | CN114860960B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 孔莞悦;戴强;高世莹;尤心韵;王慧敏;黄晶;毛龄聃 | 申请(专利权)人: | 南京师范大学;河海大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/205;G06F40/242 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苟冬梅 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 挖掘 洪涝 natech 灾害 事件 知识 图谱 构建 方法 | ||
本发明提供了一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,包括:对文本数据进行预处理,获得目标文本数据;根据预设语料库,确定目标文本数据中的有效单句;根据有效单句中的词语与有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取有效单句中的中心词;根据提取的中心词,提取中心词的子节点中符合词性要求的修饰词;根据预设洪涝型灾害事件模板,将提取的中心词和修饰词存储至预设洪涝型灾害事件模板的数据库中;将事件库和关系库中的数据导入图数据库,构建洪涝型灾害事件可视化知识图谱。旨在全面专业地构建洪涝型Natech灾害事件可视化知识图谱。
技术领域
本发明涉及灾害应急处理技术领域,特别是涉及一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法。
背景技术
Natech灾害事件是指由自然灾害诱发的技术灾害,广义上包括所有由自然灾害引发基础设施受到破坏的灾害。其影响往往具有链状的多米诺骨牌效应,给人类社会和经济发展造成巨大的损失。在国内,由洪涝引起或与洪涝相关的Natech灾害事件尤其具有破坏性。这一链状影响效应具有一定的特征规律,因此洪涝型Natech灾害事件发生和发展机制的研究对灾害防控意义重大。
而近几年随着信息化和大数据时代的到来,互联网上存在大量记录灾害的发生及影响的报道和描述,可以作为实时灾害监测和研究灾害影响机制的重要数据来源。而现有的文本挖掘手段缺乏高效的数据抽取和关系可视化方法,难以支撑大数据量的Natech灾害事件。
发明内容
有鉴于此,本发明提供一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,旨在自动高效地对大数据量进行处理,同时更加全面专业地构建Natech灾害事件知识图谱。
本发明提供了一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,该方法包括:
对文本数据进行预处理,获得目标文本数据;
根据预设语料库,确定所述目标文本数据中的有效单句,所述预设语料库中包括触发词和非关键词;
根据所述有效单句中的词语与所述有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取所述有效单句中的中心词;
根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词;
根据所述预设灾害事件模板,将提取的所述中心词和所述修饰词存储至所述预设灾害事件模板的数据库中,所述数据库包括事件库和关系库;
将事件库和关系库中的数据导入图数据库,构建洪涝型Natech灾害事件可视化知识图谱。
可选地,所述预设语料库的构建,包括:
根据基础文本数据中的各个句子涵盖的灾害事件的信息量,对所述各个句子进行分级;
根据所述各个句子的等级,对所述各个句子进行赋值,获得经过赋值的各个句子;
根据词语在各个句子中的频次和各个句子的等级分值,确定该词语的权重值;
根据词语的权重取值,将满足第一预设条件的词语存储至语料库的非关键词词典中,将满足第二预设条件的词语和该词语的权重值存储至语料库的触发词词典中,以及将Natech灾害事件专有名词词典和灾害等级指示词存储至语料库的对应词典类别中,获得预设语料库。
可选地,所述根据预设语料库,确定所述目标文本数据中的有效单句,包括:
根据预设语料库,确定所述目标文本数据中的各个单句是否包含所述预设语料库中的触发词;
将包含所述预设语料库中的触发词的单句确定为有效单句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学;河海大学,未经南京师范大学;河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210807776.9/2.html,转载请声明来源钻瓜专利网。