[发明专利]一种基于深度学习的无监督地质实体提取方法在审
申请号: | 201910622537.4 | 申请日: | 2019-07-11 |
公开(公告)号: | CN110457681A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 邱芹军;谢忠;吴亮;陶留峰 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/33;G06F16/36 |
代理公司: | 42238 武汉知产时代知识产权代理有限公司 | 代理人: | 易滨<国际申请>=<国际公布>=<进入国 |
地址: | 430064湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专业领域 词频信息 地质实体 人工标注 语料库 自动化 训练语料库 领域实体 随机抽取 无监督 构建 算法 学习 词汇 搜集 地质 | ||
1.一种基于深度学习的无监督地质实体提取方法,其特征在于,该方法首先利用搜集的通用领域的词汇及词频和专业领域实体及词频信息采用随机抽取算法自动化构建训练语料库,然后将训练语料库输入到深度学习网络模型中得到训练模型。
2.根据权利要求1所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,该方法具体包括:
1)统计通用领域词汇及词频,从专业词典、地质报告中搜集专业领域实体及词频信息;
2)通过取整函数,对步骤1)中获取的词汇及词频信息进行向下取整操作;
3)对步骤2)中的所有词汇(包括通用领域及专业领域)按照词频信息进行分组;
4)计算步骤3)中每一组词汇在整个的词汇集合中占据的比例信息,具体方式为:其中f代表每一个分组中的词频,将整个比例信息作为后期的抽取概率;
5)根据步骤4)中获取的词汇集合采用随机抽取算法从通用领域集合和专业领域集合中随机抽取词汇进行组合,将组合形成的伪“句子”输入到深度学习模型中;
6)对步骤5)中的伪“句子”训练设定优化目标,其形式为:Smax=argmaxθ1θ2...θn;
7)根据步骤6)设置的优化目标,选择Smax最大的作为一条训练记录,根据设置的收敛条件得到所有的训练样本;
8)根据步骤7)中获取的训练样本,输入到深度学习网络模型中进行训练,得到训练模型。
3.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,步骤2)采用取整函数对所有词频信息进行预处理,能够加快算法的训练集收敛速度,提高算法效率。
4.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,步骤3)通过采用分组的方法将所有的词汇进行分类,然后计算每一组词频在整个词汇集合中的比例,可以提高训练效率。
5.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法,其特征在于,步骤6)中是基于大数定律和一元文法模型(统计自然语言模型)来随机组合及挑选形成新的“句子”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910622537.4/1.html,转载请声明来源钻瓜专利网。