[发明专利]一种基于神经网络的中文命名实体识别方法有效

专利信息
申请号: 201811396784.9 申请日: 2018-11-22
公开(公告)号: CN109635279B 公开(公告)日: 2022-07-26
发明(设计)人: 姜超豪;钟艳如;赵蕾先;杨兵;李一媛;罗笑南 申请(专利权)人: 桂林电子科技大学
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 杨雪梅
地址: 541004 广*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于神经网络的中文命名实体识别方法,采用机器学习方面的算法并且结合神经网络模型,对文本进行分析和命名实体识别。将中文文本中出现的每一个字都构建特征向量,其特征包括位置特征和字符特征。然后把这组句子所对应的特征向量作为神经网络模型的输入,经过Bi‑LSTM以及CRF层后将结果映射到相应的实体标签,完成实体识别任务。该方法仅需要训练文本以及输入语句就可以完成实体识别,是一种灵活方便的方法。
搜索关键词: 一种 基于 神经网络 中文 命名 实体 识别 方法
【主权项】:
1.一种基于神经网络的中文命名实体识别方法,其特征在于,是利用标签方法标记字符的位置信息并使用神经网络学习特征向量,再使用神经网络模型识别命名实体,包括如下步骤:1)对训练集的字符预处理:1‑1)将训练集的文本进行文字分割,使字与字之间分开;1‑2)将分开的字转换成字典,每个字都有对应的数字ID;1‑3)将训练集的句子每个字都转换成相应的字典ID,得到句子向量;2)获取字符位置标签:2‑1)将训练集文本中的每一段句子进行全模式的词分割,为每个句子构建词组集合;2‑2)将词组集合中每个词的字符用标签进行位置标记,得到词组标签;2‑3)对训练集文本中的每一段句子进行精确模式的词分割,使用标签标记分割位置,得到句子标签;2‑4)将步骤2‑2)得到的词组标签和步骤2‑3)得到的句子标签进行比对,根据标签的异同生成连接点标记序列;2‑5)将步骤2‑2)得到的词组标签进行两两比对,根据标签的异同生成歧义点标记序列;2‑6)每个标签对应有数字ID,将步骤2‑4)和步骤2‑5)的连接点标记序列和歧义点标记序列转换为数字ID的位置标签向量;3)训练中文命名实体识别模型:3‑1)将步骤2‑6)得到的位置标签向量置入全连接神经网络的Embedding层进行编码;3‑2)将步骤3‑1)处理得到的数据置入全连接层,完成特征训练;3‑3)将步骤1‑3)得到的句子向量送入循环神经网络的Embedding层进行编码;3‑4)接收来自步骤3‑2)和步骤3‑3)的处理数据,将其拼接并置入Bi‑LSTM层完成双向长短记忆特征训练;经过反复timestep后的训练得到一组数据权重;3‑5)将经过步骤3‑4)得到的数据权重送到CRF层对数据进行约束和解码,提高分类精度;3‑6)重复进行上述步骤将模型训练到精确度最高的情况,得到中文实体识别模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811396784.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top