[发明专利]一种基于深度学习的无监督地质实体提取方法在审

申请号：	201910622537.4	申请日：	2019-07-11
公开（公告）号：	CN110457681A	公开（公告）日：	2019-11-15
发明（设计）人：	邱芹军;谢忠;吴亮;陶留峰	申请（专利权）人：	中国地质大学(武汉)
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/33;G06F16/36
代理公司：	42238 武汉知产时代知识产权代理有限公司	代理人：	易滨<国际申请>=<国际公布>=<进入国
地址：	430064湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	专业领域词频信息地质实体人工标注语料库自动化训练语料库领域实体随机抽取无监督构建算法学习词汇搜集地质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的无监督地质实体提取方法，其特征在于，该方法首先利用搜集的通用领域的词汇及词频和专业领域实体及词频信息采用随机抽取算法自动化构建训练语料库，然后将训练语料库输入到深度学习网络模型中得到训练模型。

2.根据权利要求1所述的一种基于深度学习的无监督地质实体提取方法，其特征在于，该方法具体包括：

1)统计通用领域词汇及词频，从专业词典、地质报告中搜集专业领域实体及词频信息；

2)通过取整函数，对步骤1)中获取的词汇及词频信息进行向下取整操作；

3)对步骤2)中的所有词汇(包括通用领域及专业领域)按照词频信息进行分组；

4)计算步骤3)中每一组词汇在整个的词汇集合中占据的比例信息，具体方式为：其中f代表每一个分组中的词频，将整个比例信息作为后期的抽取概率；

5)根据步骤4)中获取的词汇集合采用随机抽取算法从通用领域集合和专业领域集合中随机抽取词汇进行组合，将组合形成的伪“句子”输入到深度学习模型中；

6)对步骤5)中的伪“句子”训练设定优化目标，其形式为：S_max＝argmaxθ₁θ₂...θ_n；

7)根据步骤6)设置的优化目标，选择S_max最大的作为一条训练记录，根据设置的收敛条件得到所有的训练样本；

8)根据步骤7)中获取的训练样本，输入到深度学习网络模型中进行训练，得到训练模型。

3.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法，其特征在于，步骤2)采用取整函数对所有词频信息进行预处理，能够加快算法的训练集收敛速度，提高算法效率。

4.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法，其特征在于，步骤3)通过采用分组的方法将所有的词汇进行分类，然后计算每一组词频在整个词汇集合中的比例，可以提高训练效率。

5.根据权利要求2所述的一种基于深度学习的无监督地质实体提取方法，其特征在于，步骤6)中是基于大数定律和一元文法模型(统计自然语言模型)来随机组合及挑选形成新的“句子”。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉)，未经中国地质大学(武汉)许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910622537.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载