[发明专利]一种基于地质文本语料预测目标区矿产的方法在审
申请号: | 202010430377.6 | 申请日: | 2020-05-20 |
公开(公告)号: | CN111611404A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 朱月琴;吴永亮;谭永杰 | 申请(专利权)人: | 中国地质调查局发展研究中心 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/279 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 龙涛 |
地址: | 100032 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 地质 文本 语料 预测 目标 矿产 方法 | ||
本发明涉及一种基于地质文本语料预测目标区矿产的方法。基于地质文本语料预测目标区矿产的方法步骤依次为:首先,对地质文本语料进行预处理获取实义词;然后,依据设定的高频实义词频阈值得出高频实义词;再对高频实义词对开展共现矩阵计算;另外,基于共现矩阵计算结果生成地质知识谱图;最后,基于地质知识图谱圈定目标区的矿产。本方法构建的地质知识图谱,可满足地质大数据的应用服务的需求,对于大数据时代背景下矿产的预测及发现具有重要意义。
技术领域
本发明涉及矿产资源预测的技术领域,尤其涉及一种对地质文本语料处理进而预测目标区矿产的方法。
背景技术
地质文本语料中的句子可以被分成实义词和语义含糊的功能描述性词。在文本数据中,实义词是文本关键信息的载体,而一些虚词等没有实际意义。通过选择高频实义词作为每篇文本的主要实义词,能够简单、清楚的代表地学文本中的主要内容。
实义词表明了文本语料的主要信息,其在本体模型中属于概念,在地学中可分为地质学、技术方法和描述性词汇等类型:(1)地质学词汇是与地质和矿物资源有关的词汇,例如断裂、岩浆岩等;(2)技术方法词汇主要是与矿产勘查、数据处理等工作或处理过程有关的词汇,例如遥感、航磁等;(3)描述性词语是一些与地质主题没有直接关系的功能实义词,例如研究、分析等。
依据文本语料中的实义词所生成的知识图谱对于矿产预测领域的知识分析与挖掘的应用具有重要意义。目前缺少通过地质文本语料预测目标区矿产的方法。
发明内容
本发明主要解决的技术问题是提供一种地质文本语料预测目标区矿产的方法。
为解决上述技术问题,本发明公开的方法,包括以下步骤:
a.对地质文本语料进行预处理,获得实义词;
b.依据设定的高频实义词频阈值得出高频实义词;
c.对高频实义词对开展共现矩阵计算;
d.基于共现矩阵计算结果生成地质知识谱图;
e.基于地质知识图谱圈定目标区的矿产。
进一步的,所述地质文本语料预处理包含对地质文本预料的切分、去标点符号和去停用词。
进一步的,所述高频实义词阈值范围为10~100。
进一步的,所述地质知识图谱以词节点的大小和边长度的方式进行显示。
进一步的,所述词节点的大小为实义词的词频,所述边长度为实义词在地质语料中的共现频率。
综上所述,本发明具有以下有益效果:
通过本发明的方法,可以实现基于地质语的知识图谱自动生成及目标区的矿产预测,满足地质大数据的应用服务的需求,对于大数据时代背景下矿产的预测及发现具有重要意义。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是经过词频统计的成矿预测相关实义词示意图。
图2是实义词共现关系示意图。
图3是目标区的共现信息示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例,用于说明本发明,但不用来限制本发明的范围。
本发明公开了一种基于地质文本语料预测目标区矿产的方法,具体包括如下步骤:
1.对地质文本进行分词处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质调查局发展研究中心,未经中国地质调查局发展研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010430377.6/2.html,转载请声明来源钻瓜专利网。