[发明专利]一种基于神经网络的中文命名实体识别方法有效

申请号：	201811396784.9	申请日：	2018-11-22
公开（公告）号：	CN109635279B	公开（公告）日：	2022-07-26
发明（设计）人：	姜超豪;钟艳如;赵蕾先;杨兵;李一媛;罗笑南	申请（专利权）人：	桂林电子科技大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06N3/04
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	杨雪梅
地址：	541004 广***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于神经网络的中文命名实体识别方法，采用机器学习方面的算法并且结合神经网络模型，对文本进行分析和命名实体识别。将中文文本中出现的每一个字都构建特征向量，其特征包括位置特征和字符特征。然后把这组句子所对应的特征向量作为神经网络模型的输入，经过Bi‑LSTM以及CRF层后将结果映射到相应的实体标签，完成实体识别任务。该方法仅需要训练文本以及输入语句就可以完成实体识别，是一种灵活方便的方法。
搜索关键词：	一种基于神经网络中文命名实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于神经网络的中文命名实体识别方法，其特征在于，是利用标签方法标记字符的位置信息并使用神经网络学习特征向量，再使用神经网络模型识别命名实体，包括如下步骤：1）对训练集的字符预处理：1‑1）将训练集的文本进行文字分割，使字与字之间分开；1‑2）将分开的字转换成字典，每个字都有对应的数字ID；1‑3）将训练集的句子每个字都转换成相应的字典ID，得到句子向量；2）获取字符位置标签：2‑1）将训练集文本中的每一段句子进行全模式的词分割，为每个句子构建词组集合；2‑2）将词组集合中每个词的字符用标签进行位置标记，得到词组标签；2‑3）对训练集文本中的每一段句子进行精确模式的词分割，使用标签标记分割位置，得到句子标签；2‑4）将步骤2‑2）得到的词组标签和步骤2‑3）得到的句子标签进行比对，根据标签的异同生成连接点标记序列；2‑5）将步骤2‑2）得到的词组标签进行两两比对，根据标签的异同生成歧义点标记序列；2‑6）每个标签对应有数字ID，将步骤2‑4）和步骤2‑5）的连接点标记序列和歧义点标记序列转换为数字ID的位置标签向量；3）训练中文命名实体识别模型：3‑1）将步骤2‑6）得到的位置标签向量置入全连接神经网络的Embedding层进行编码；3‑2）将步骤3‑1）处理得到的数据置入全连接层，完成特征训练；3‑3）将步骤1‑3）得到的句子向量送入循环神经网络的Embedding层进行编码；3‑4）接收来自步骤3‑2）和步骤3‑3）的处理数据，将其拼接并置入Bi‑LSTM层完成双向长短记忆特征训练；经过反复timestep后的训练得到一组数据权重；3‑5）将经过步骤3‑4）得到的数据权重送到CRF层对数据进行约束和解码，提高分类精度；3‑6）重复进行上述步骤将模型训练到精确度最高的情况，得到中文实体识别模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学，未经桂林电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811396784.9/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于神经网络的中文命名实体识别方法有效

专利文献下载