[发明专利]一种地质命名实体的提取方法及装置有效
申请号: | 201911322290.0 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111079436B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 邓吉秋;路馥毓;刘文毅;李晨菡;何美香 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 长沙智路知识产权代理事务所(普通合伙) 43244 | 代理人: | 谢珍贵 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地质 命名 实体 提取 方法 装置 | ||
本发明涉及一种地质命名实体提取方法,包括:获取由多个字符或字符串组成的目标文本;基于目标文本和预先设定的第一规则字符,获取第一正则表达式,提取目标文本中的第一字符串,用预先设定的第八规则字符替换后,得到第二目标文本;基于所述第二目标文本和预先设定的第三规则字符判断第二目标文本中是否含有第三规则字符;若有,则采用预先设定的与所述第三规则字符对应的第四规则字符、第二规则字符、第五规则字符、第六规则字符和第三规则字符获取第二正则表达式,获取第二目标文本中第二字符串;获取第二字符串的长度,并根据长度和所述预先设定的与所述第三规则字符对应的最小长度值,获取所述目标文本中的地质命名实体。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种地质命名实体的提取方法及装置。
背景技术
命名实体识别的目前状态:只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名、组织机构名)中取得了不错的效果;与其他信息检索领域相比,实体命名评测语料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性能很差。
通用命名实体提取方法,一般需要大量的语料,但在具体分析某个文档时很难准确找到相对应的数量可观的背景语料。在应用规则进行地质命名实体提取时,如果采用简单规则,则可能因为不能有效考虑到不同层次的行文法则、不同模式的基本词组合等,其提取效果一般较差。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述命名实体的提取需要依赖大量的语料,同时提取精度不高的问题,本发明提供一种地质命名实体的提取方法及装置。
(二)技术方案
为了达到上述目的,本发明提供一种地质命名实体的提取方法,包括:
A1、获取由多个字符或字符串组成的目标文本;
A2、基于所述目标文本和预先设定的第一规则字符,获取与所述第一规则字符对应的第一正则表达式,提取所述目标文本中满足第一规则字符的正则表达式的第一字符串,得到第二目标文本;其中,所述第二目标文本为不包含第一字符串的目标文本;
其中,所述第一规则字符为在多类别地质命名实体位置前,但不属于地质命名实体的词;
A3、基于所述第二目标文本和预先设定的第三规则字符判断所述第二目标文本中是否含有所述第三规则字符;
其中,所述第三规则字符为在地质命名实体中的结尾词;
A4、若有,则采用预先设定的与所述第三规则字符对应的第四规则字符、第二规则字符、第五规则字符、第六规则字符和第三规则字符一起获取第二正则表达式,采用所述第二正则表达式,获取所述第二目标文本中满足所述第二正则表达式的第二字符串;
所述第二规则字符为:在所有类别地质命名实体中的结尾词前,但不属于地质命名实体的词;
所述第四规则字符为:在地质命名实体中的结尾词前的任何位置,但不属于地质命名实体的词;
所述第五规则字符为:在地质命名实体中的结尾词前一相邻位置,但不属于地质命名实体的词;
所述第六规则字符为:在地质命名实体中的结尾词后一相邻位置,但不属于地质命名实体的词;
所述第七规则字符为结尾词所对应地质命名实体的类型代号;
A5、获取所述第二字符串的长度信息,并根据所述长度信息和所述预先设定的与所述第三规则字符对应的最小长度值,获取所述目标文本中的地质命名实体。
优选的,所述步骤A2包括:
A2-1、由所述预先设定的第一规则字符获取第一正则表达式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911322290.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据库的数据对比方法及装置
- 下一篇:一种高效低耗轧制稀土铝合金及其制备方法