[发明专利]一种基于特征融合的命名实体识别方法在审

申请号：	201910099671.0	申请日：	2019-01-31
公开（公告）号：	CN109800437A	公开（公告）日：	2019-05-24
发明（设计）人：	赵青;王丹;杜金莲;付利华;苏航	申请（专利权）人：	北京工业大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于特征融合的命名实体识别方法属于计算机领域，通过两个方面来提取和融合不同粒度的文本特征，概念特征和非概念词特征，从而来提高命名实体识别的准确率并降低计算量。方法包括：数据预处理模块、特征构建模块、训练命名实体网络模型模块和命名实体分类器模块，其中特征模块包括语义特征提取、词特征提取、字符特征提取、特征融合四个子模块。在本方法中结合神经网络模型LSTM(Long Short‑Term Memory)或GRU(Gated Recurrent Unit)的时序记忆特点来考虑命名实体任务的上下文信息，最后使用softmax预测实体类别标签。在模型构建过程中，可以利用稀疏数据作为训练集并对LSTM和GRU两种神经网络模型进行对比，确保本发明在实体识别任务上能取得令人满意的效果。
搜索关键词：	命名实体特征融合数据预处理模块结合神经网络神经网络模型语义特征提取字符特征提取分类器模块计算机领域上下文信息概念特征模型构建时序记忆实体类别实体识别特征构建特征模块特征提取网络模型文本特征稀疏数据概念词计算量训练集准确率标签融合预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于特征融合的命名实体识别方法，其特征包括以下四个模块：数据预处理模块(1)、特征构建模块(2)、训练命名实体网络模型模块(3)、命名实体分类器模块(4)；(1)数据预处理模块在已标注的训练集中加入未标注的数据形成稀疏标记的语料库，并载入领域本体；根据标点符号、数字和空格符将待处理的文本切分成汉字字符串，并去除停用词；(2)特征构建模块该模块分为特征提取和特征融合，具体分为四个子模块：语义特征提取、词特征提取、字符特征提取和特征融合；(3)训练命名实体网络模型模块将融合后的特征作为模型的输入进行训练，由于命名实体识别也称为序列标注任务，需要提取上下文信息辅助推断实体类别，因此训练模型将采用具有时序记忆功能的神经网络模型LSTM或GRU；(4)命名实体分类器模块根据神经网络LSTM或GRU模型的softmax分类器来产生最后的实体标签分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910099671.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于特征融合的命名实体识别方法在审

专利文献下载