[发明专利]一种基于神经网络的中文命名实体识别方法有效
申请号: | 201811396784.9 | 申请日: | 2018-11-22 |
公开(公告)号: | CN109635279B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 姜超豪;钟艳如;赵蕾先;杨兵;李一媛;罗笑南 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于神经网络的中文命名实体识别方法,采用机器学习方面的算法并且结合神经网络模型,对文本进行分析和命名实体识别。将中文文本中出现的每一个字都构建特征向量,其特征包括位置特征和字符特征。然后把这组句子所对应的特征向量作为神经网络模型的输入,经过Bi‑LSTM以及CRF层后将结果映射到相应的实体标签,完成实体识别任务。该方法仅需要训练文本以及输入语句就可以完成实体识别,是一种灵活方便的方法。 | ||
搜索关键词: | 一种 基于 神经网络 中文 命名 实体 识别 方法 | ||
【主权项】:
1.一种基于神经网络的中文命名实体识别方法,其特征在于,是利用标签方法标记字符的位置信息并使用神经网络学习特征向量,再使用神经网络模型识别命名实体,包括如下步骤:1)对训练集的字符预处理:1‑1)将训练集的文本进行文字分割,使字与字之间分开;1‑2)将分开的字转换成字典,每个字都有对应的数字ID;1‑3)将训练集的句子每个字都转换成相应的字典ID,得到句子向量;2)获取字符位置标签:2‑1)将训练集文本中的每一段句子进行全模式的词分割,为每个句子构建词组集合;2‑2)将词组集合中每个词的字符用标签进行位置标记,得到词组标签;2‑3)对训练集文本中的每一段句子进行精确模式的词分割,使用标签标记分割位置,得到句子标签;2‑4)将步骤2‑2)得到的词组标签和步骤2‑3)得到的句子标签进行比对,根据标签的异同生成连接点标记序列;2‑5)将步骤2‑2)得到的词组标签进行两两比对,根据标签的异同生成歧义点标记序列;2‑6)每个标签对应有数字ID,将步骤2‑4)和步骤2‑5)的连接点标记序列和歧义点标记序列转换为数字ID的位置标签向量;3)训练中文命名实体识别模型:3‑1)将步骤2‑6)得到的位置标签向量置入全连接神经网络的Embedding层进行编码;3‑2)将步骤3‑1)处理得到的数据置入全连接层,完成特征训练;3‑3)将步骤1‑3)得到的句子向量送入循环神经网络的Embedding层进行编码;3‑4)接收来自步骤3‑2)和步骤3‑3)的处理数据,将其拼接并置入Bi‑LSTM层完成双向长短记忆特征训练;经过反复timestep后的训练得到一组数据权重;3‑5)将经过步骤3‑4)得到的数据权重送到CRF层对数据进行约束和解码,提高分类精度;3‑6)重复进行上述步骤将模型训练到精确度最高的情况,得到中文实体识别模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811396784.9/,转载请声明来源钻瓜专利网。
- 上一篇:语义表示方法及装置
- 下一篇:一种基于标注的事件抽取方法