[发明专利]一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法有效
申请号: | 202210807776.9 | 申请日: | 2022-07-11 |
公开(公告)号: | CN114860960B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 孔莞悦;戴强;高世莹;尤心韵;王慧敏;黄晶;毛龄聃 | 申请(专利权)人: | 南京师范大学;河海大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/205;G06F40/242 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苟冬梅 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 挖掘 洪涝 natech 灾害 事件 知识 图谱 构建 方法 | ||
1.一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述方法包括:
对文本数据进行预处理,获得目标文本数据;
根据预设语料库,确定所述目标文本数据中的有效单句,所述预设语料库中包括触发词和非关键词;
通过预设算法,确定所述有效单句中的核心动词;
通过句法分析,对所述有效单句中的所有词语进行打分,获得所有词语分别与所述核心动词之间的依存距离评分;
遍历所述预设语料库,在词语属于所述预设语料库中的触发词时,将该词语的依存距离评分除以该词语在所述预设语料库中对应的权重值,获得该词语对应的目标依存距离评分;在词语属于所述预设语料库中的非关键词时,排除该词语;在词语不属于所述预设语料库中的非关键词和触发词时,将该词语的依存距离评分确定为该词语的目标依存距离评分;
从具有目标依存距离评分的词语中提取词性和位置均符合预设灾害事件模板中的关键实体信息要求,且目标依存距离评分最低的词语,作为关键实体信息的中心词,以及,从具有目标依存距离评分的词语中提取词性和位置均符合所述预设灾害事件模板中的时空信息要求的词语,且目标依存距离评分最低的词语,作为时空信息的中心词;
根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词;
将所述中心词和所述中心词的修饰词按照序列距离进行排序,获得长组合词组;
根据所述长组合词组中的关键实体信息、时间指示词和地点指示词,将所述长组合词组中的关键实体信息按照词性拆分为实体描述词和属性描述词,以及,将所述长组合词组中的时间信息按照时间指示词进行分词,以及,将所述长组合词组中的空间信息按照地点指示词进行分词,获得分词结果;
根据所述有效单句中的各个动词,构建关键实体信息之间的关系和关键实体信息与时空信息之间的关系;
对分词结果中的时空信息进行标准化处理;
将构建的关键实体信息之间的关系存储至预设灾害事件模板的关系库中,以及,将分词结果、关键实体信息与时空信息之间的关系和时空信息的标准化处理结果存储至预设灾害事件模板的事件库中,数据库包括事件库和关系库;
将事件库和关系库中的数据导入图数据库,构建洪涝型Natech灾害事件可视化知识图谱。
2.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述预设语料库的构建,包括:
根据基础文本数据中的各个句子涵盖的灾害事件的信息量,对所述各个句子进行分级;
根据所述各个句子的等级,对所述各个句子进行赋值,获得经过赋值的各个句子;
根据词语在各个句子中的频次和各个句子的等级分值,确定该词语的权重值;
根据词语的权重取值,将满足第一预设条件的词语存储至语料库的非关键词词典中,将满足第二预设条件的词语和该词语的权重值存储至语料库的触发词词典中,以及将Natech灾害事件专有名词词典和灾害等级指示词存储至语料库的对应词典类别中,获得预设语料库。
3.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据预设语料库,确定所述目标文本数据中的有效单句,包括:
根据预设语料库,确定所述目标文本数据中的各个单句是否包含所述预设语料库中的触发词;
将包含所述预设语料库中的触发词的单句确定为有效单句。
4.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词,包括:
根据所述有效单句中词语间的依存关系,通过句法分析算法构建对应的句法树;
提取所述句法树中符合所述中心词的词性要求的修饰词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学;河海大学,未经南京师范大学;河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210807776.9/1.html,转载请声明来源钻瓜专利网。