[发明专利]一种基于特征融合的命名实体识别方法在审
申请号: | 201910099671.0 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109800437A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 赵青;王丹;杜金莲;付利华;苏航 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 特征融合 数据预处理模块 结合神经网络 神经网络模型 语义特征提取 字符特征提取 分类器模块 计算机领域 上下文信息 概念特征 模型构建 时序记忆 实体类别 实体识别 特征构建 特征模块 特征提取 网络模型 文本特征 稀疏数据 概念词 计算量 训练集 准确率 标签 融合 预测 | ||
一种基于特征融合的命名实体识别方法属于计算机领域,通过两个方面来提取和融合不同粒度的文本特征,概念特征和非概念词特征,从而来提高命名实体识别的准确率并降低计算量。方法包括:数据预处理模块、特征构建模块、训练命名实体网络模型模块和命名实体分类器模块,其中特征模块包括语义特征提取、词特征提取、字符特征提取、特征融合四个子模块。在本方法中结合神经网络模型LSTM(Long Short‑Term Memory)或GRU(Gated Recurrent Unit)的时序记忆特点来考虑命名实体任务的上下文信息,最后使用softmax预测实体类别标签。在模型构建过程中,可以利用稀疏数据作为训练集并对LSTM和GRU两种神经网络模型进行对比,确保本发明在实体识别任务上能取得令人满意的效果。
技术领域
本发明属于计算机领域,涉及一种基于特征融合的命名实体识别方法。
背景技术
近年来,随着人工智能技术在自然语言处理(Natural Language Processing,NLP)领域的广泛应用,人们对领域知识的探索也越来越多。命名实体识别是构成领域知识的基础,也是至关重要的一个步骤,例如:知识图谱构建、文本检索、文本分类和信息抽取等领域中都需要进行命名实体识别。
命名实体识别(Named Entity Recognition,NER)可以看作是一个序列标注任务,通过提取出来的信息来查找实体并将其分为一组固定的类别。传统NER问题的两种主要方法是基于规则的学习方法和有监督的学习方法,其中有监督的学习方法占主导地位。基于规则学习的方法和有监督的学习方法都是假设可用的训练数据已全部标记(即,所有包含在文档中的实体都被标记)的前提下,在从文档中找到候选实体的标签序列。然而,在如今的大数据时代将充分标注的数据作为训练集是非常耗时耗力的,并且由于大多数领域术语的特殊性,如今的命名实体识别任务还存在以下挑战:(1)现实生活中大部分是半结构或非结构化的,并且很多信息是叙述性的,无结构信息,不适用于知识的发现和抽取;(2)领域实体本身结构复杂并且相同概念具有多种表达方法,例如在医疗领域:慢性阻塞性肺疾病可以缩写为COPD;(3)命名实体通常是由多个词组成,仅考虑词特征会使语义信息割裂。基于以上问题,传统的命名实体识别方法已经很难适用于如今的应用场景。
目前,随着深度学习在各个领域中都优异的表现,在命名实体识别任务中的应用也越来越多,相比较传统方法,深度学习的方法效果更好。但是深度学习结合的NER方法大多都是基于英文的,或者基于词向量和字符向量的,而没有考虑到概念特征。
2016年,发表在ACL,由Guillaume Lample等人所著论文“Neural Architecturesfor Named Entity Recognition”,提出了一种基于循环神经网络(Recurrent NeuralNetwork,RNN)和条件随机场(Conditional Random Fields,CRF)结合的命名实体识别方法,用来识别英文人名、地名等,该方法通过RNN来提取词特征和字符特征,最后通过CRF对实体进行分类。
2017年,发表在计算机研究与发展,由杨培等人所著论文“基于注意机制的化学药物命名实体识别”,提出了一种基于字词特征并结合注意力机制的实体识别方法,该方法通过神经网络LSTM(Long Short-Term Memory)来训练实体识别分类器,并采用CRF产生最后的实体标签分类结果。
以上的方法虽然都可以完成命名实体识别任务,但是现有命名实体识别方法都是假设没有领域知识,特征只通过训练集来学习,然而现实生活中,大多数领域都是具有部分领域知识的,虽然还不完善,但是这些领域知识可以帮助我们在稀疏数据中更好的识别命名实体,同时也可以在一定程度上减少由表达不一致带来的巨大计算量。
发明内容
本发明的内容:
一种基于特征融合的命名实体识别方法,该方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910099671.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:问卷调查方法及系统
- 下一篇:用于生成信息的方法和装置