[发明专利]一种基于深度学习的无监督地质实体提取方法在审
申请号: | 201910622537.4 | 申请日: | 2019-07-11 |
公开(公告)号: | CN110457681A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 邱芹军;谢忠;吴亮;陶留峰 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/33;G06F16/36 |
代理公司: | 42238 武汉知产时代知识产权代理有限公司 | 代理人: | 易滨<国际申请>=<国际公布>=<进入国 |
地址: | 430064湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专业领域 词频信息 地质实体 人工标注 语料库 自动化 训练语料库 领域实体 随机抽取 无监督 构建 算法 学习 词汇 搜集 地质 | ||
本发明公开了一种基于深度学习的无监督地质实体提取方法,该模型通过搜集专业领域词汇及词频信息和地质领域实体及词频信息,采用随机抽取及组合的方法利用深度学习模型自动化生成训练语料库;其次,针对自动化构建的语料库采用深度学习模型进行训练;最后通过训练得到的模型来对新输入的地质实体进行识别。与现有技术相比,本发明算法无需人工标注大量的专业领域语料库,能快速扩展到其他专业领域,节省大量人工标注成本。
技术领域
本发明涉及地质实体提取方法技术领域,具体为一种基于深度学习的无监督地质实体提取方法。
背景技术
地质调查过程中积累了大量的成果资料,这些成果资料中不仅包含着普通的结构化数据和地理空间数据,同时还存在着规模巨大的基于文本表达的非结构化数据,在这些非结构化数据中,蕴含着丰富的地质领域信息和知识。地质成果报告及相关研究论文往往工作成本比较高,在该类文本中蕴含有丰富的领域知识,对这些知识进行精确的提取并构建合适的表示模型很有必要,从地质文本中识别、提取出有意义的各类地质命名实体并根据实体的类型和固有的关系构建关联网络是一种重要的信息提取方法,也是扩展现有知识库的重要途径。地质实体的识别与标注工作是地质知识的抽取任务的重要组成部分。在此背景下,如何有效地从大量的非结构化地质文本中提取有价值的实体成为一个亟需解决的问题。
早期的命名实体任务大多数都是基于规则的方法,但是这一类方法本身具有很强的局限性,需要事先定义大量的人工设定的规则,因此,大家开始逐渐转向基于统计的方法。目前主流的命名实体提取研究方法都是采用基于统计的方法,这种方法一般需要使用大量的人工标注预料来训练模型,然后利用训练好的模型来完成相关的任务。因此,基于统计的方法往往需要搜集大量人工标注的数据。然而,大规模的人工标注语料库需要花费很大的人力物力,导致现有的命名实体方法很难扩展到其他领域,很难在大范围内得到推广。
因此,针对专业领域语料标注不易获取的现象,如何最大限度的利用已有资源来提升模型在特定领域中实体识别的性能,具有很强的研究及利用价值。
发明内容
本发明的目的在于提供一种基于深度学习的无监督地质实体提取方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于深度学习的无监督地质实体提取方法,其特征在于,该方法首先利用搜集的通用领域的词汇及词频和专业领域实体及词频信息采用随机抽取算法自动化构建训练语料库,然后将训练语料库输入到深度学习网络模型中得到训练模型。
优选的,该方法具体包括:
1)统计通用领域词汇及词频,从专业词典、地质报告中搜集专业领域实体及词频信息;
2)通过取整函数,对步骤1)中获取的词汇及词频信息进行向下取整操作;
3)对步骤2)中的所有词汇(包括通用领域及专业领域)按照词频信息进行分组;
4)计算步骤3)中每一组词汇在整个的词汇集合中占据的比例信息,具体方式为:其中f代表每一个分组中的词频,将整个比例信息作为后期的抽取概率;
5)根据步骤4)中获取的词汇集合采用随机抽取算法从通用领域集合和专业领域集合中随机抽取词汇进行组合,将组合形成的伪“句子”输入到深度学习模型中;
6)对步骤5)中的伪“句子”训练设定优化目标,其形式为:Smax=argmaxθ1θ2...θn;
7)根据步骤6)设置的优化目标,选择Smax最大的作为一条训练记录,根据设置的收敛条件得到所有的训练样本;
8)根据步骤7)中获取的训练样本,输入到深度学习网络模型中进行训练,得到训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910622537.4/2.html,转载请声明来源钻瓜专利网。