[发明专利]一种基于新词发现和Flat-lattice的粮情命名实体识别方法在审
申请号: | 202111076986.7 | 申请日: | 2021-09-14 |
公开(公告)号: | CN113743122A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 肖乐;李家馨;葛亮;吴涛;段梦诗;岳思雯;陈啸林;单昕 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/117;G06F16/33;G06F16/951;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 新词 发现 flat lattice 命名 实体 识别 方法 | ||
本发明提出了一种基于新词发现和Flat‑lattice的粮情命名实体识别方法。该方法包括:首先,利用python爬虫技术从知网和粮食大辞典中爬取粮情相关数据形成文本语料库,并对语料进行预处理;之后,使用N‑grams算法从粮情文本语料库中获取新词,帮助分词算法进行分词,根据分词后结果使用Word2vec构建粮情词典;然后,将词典划分为15个实体类别标签,并根据这些标签对粮情语料进行BIOES标注;接着,采用Flat‑lattice模型将输入字符以及所有能在词典中匹配的单词一起编码输入模型进行训练;最后,使用训练好的深度学习模型进行预测;本文提出了一种基于新词发现和Flat‑lattice的粮情命名实体识别方法,能有效的从多源异构数据中抽取出粮情实体,为构建粮情知识图谱等下游任务提供基础。
技术领域
本发明为自然语言处理领域,具体涉及一种基于新词发现和Flat-lattice的粮情命名实体识别方法。
背景技术
随着粮食行业信息技术的高速发展,“信息爆炸”与“知识缺乏”矛盾愈发严重。海量的粮情记录文本数据、粮情学术论文和专利等不断积累,高效准确地从这些数据中挖掘出粮情实体,可为后续研究,如粮情决策系统和粮情知识图谱的构建,带来较大的便利。在从多源异构数据中抽取出特定的实体过程中,命名实体识别(Named Entity Recognition,简称NER)是一项不可或缺的技术。通过命名实体识别技术,可以从粮情数据中提取出诸如害虫名称、危害粮种和通风规则等信息,为后续的研究提供结构化数据。当前命名实体识别主要方法有三种,分别是基于规则的方法、基于机器学习的方法与基于深度学习的方法。
基于规则的命名实体识别是由专家根据数据集的性质手工构建规则模板和特定的词典,之后通过文本匹配的方法来进行实体抽取。但是构建规则耗费大量人力,严重依赖词典库与规则的严格匹配,难以适应数据的变化。基于机器学习的命名实体识别是先训练原始语料,之后通过训练好的模型去识别实体。传统的机器学习方法有:马尔可夫模型、最大熵模型、条件随机场模型等以及将上述方法结合和改进的方法。Fang提出了C-CRF层叠条件随机场模型抽取农业实体,充分利用了农作物特征词典,获得了较好的识别效果。基于机器学习的方法对选取的特征要求较高,对语料库的依赖比较大。目前,基于深度学习的命名实体识别逐渐成为主流,相较于传统的基于规则的方法或机器学习方法,深度学习模型能学习到更多的文本特征,从而较大的提升命名实体识别准确性。Guo等人提出了一种联合多尺度局部上下文特征和注意力机制的中文命名实体识别模型抽取粮食害虫实体,通过CNN提取多尺度局部特征,并采用注意力机制捕捉长距离依赖关系。
目前基于深度学习的实体抽取方法主要面向公共领域,缺少与粮情相关的数据集。与通用领域不同,粮情数据存在资源散乱、稳定性低、各个地方存储格式不同和存在大量领域内专有名词等特点,若直接对多源异构数据分词并进行模型训练,会导致一些粮情专有名词无法被抽取。因此我们提出使用N-grams算法发现领域内专有名词。此外,基于深度学习的方法会受分词错误传播的影响。而flat结构被证明具有避免分词的错误传播,有效利用词信息和完全建模远程依赖关系等优点,能较大的提高深度学习的实体抽取效果。
发明内容
本发明提供了一种基于新词发现和Flat-lattice的粮情命名实体识别方法,以用于解决粮情领域内专有名词识别率低、错误分词影响实体识别效果和当前缺少用于后续研究的结构化粮情数据集等问题。
我们方法的具体流程如下:
步骤(A)建立粮情命名实体识别文本语料库;
步骤(B)N-grams算法构建粮情字典;
步骤(C)BIOES标注方式对数据集进行标注;
步骤(D)粮情词典辅助构建flat结构;
步骤(E)基于Flat-lattice算法的模型学习;
步骤(F)对模型训练结果进行评价;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111076986.7/2.html,转载请声明来源钻瓜专利网。