[发明专利]一种基于双向LSTM和CRF的命名实体识别方法在审
申请号: | 201710874154.7 | 申请日: | 2017-09-25 |
公开(公告)号: | CN107644014A | 公开(公告)日: | 2018-01-30 |
发明(设计)人: | 薛涵凛;顾孙炎 | 申请(专利权)人: | 南京安链数据科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/21;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏省南京市雨花台*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于双向LSTM和CRF的命名实体识别方法,该方法是基于现有的传统命名实体识别算法进行的改进优化,具体步骤如下(1)对文本进行预处理,提取文本词组信息和字符信息。(2)利用双向LSTM神经网络对文本字符信息进行编码转换成字符向量。(3)利用glove模型对文本词组信息进行编码转换成词向量。(4)将字符向量和词向量组合成上下文信息向量,并放入双向LSTM神经网络中。(5)利用线性链条件随机场对双向LSTM的输出进行解码,得到文本标注实体。本发明利用深度神经网络提取文本特征,结合条件随机场进行解码,可以有效提取文本特征信息并且能够在不同语言的实体识别任务上取得很好的效果。 | ||
搜索关键词: | 一种 基于 双向 lstm crf 命名 实体 识别 方法 | ||
【主权项】:
一种基于双向LSTM和CRF的命名实体识别方法,其特征在于,该方法包括如下步骤:步骤(1):对文本进行预处理,得到文本的字符特征信息和词组特征信息,对文本进行标注,提取命名实体标签信息;步骤(2):针对步骤(1)中的字符特征信息,利用双向LSTM神经网络进行编码,得到字符向量,所述字符向量是将单个字符初始化为向量形式,加入双向LSTM中进行训练;步骤(3):针对步骤(1)中词组特征信息利用glove模型进行预训练,得到词向量,每一维代表了特定的词组特征,每个词组由特定的词向量表示;步骤(4):将步骤(2)中得到的字符向量和步骤(3)中得到的词向量进行合并,得到上下文信息向量;步骤(5):将步骤(4)中得到的上下文信息向量输入一个新的双向LSTM进行训练,得到输入文本的语义信息特征;步骤(6):针对步骤(5)中得到的语义信息特征,利用条件随机场对词组进行标注,输出得到文本序列中的实体信息,所述条件随机场以步骤(5)中的输出作为输入,计算输入词对应的最优标签序列,以最大概率的序列作为词组最后的实体类别标签序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京安链数据科技有限公司,未经南京安链数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710874154.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种操作控制方法及终端
- 下一篇:日志文件的查询方法及装置