[发明专利]一种基于神经网络的中文命名实体识别方法有效

申请号：	201811396784.9	申请日：	2018-11-22
公开（公告）号：	CN109635279B	公开（公告）日：	2022-07-26
发明（设计）人：	姜超豪;钟艳如;赵蕾先;杨兵;李一媛;罗笑南	申请（专利权）人：	桂林电子科技大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06N3/04
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	杨雪梅
地址：	541004 广***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于神经网络中文命名实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于神经网络的中文命名实体识别方法，采用机器学习方面的算法并且结合神经网络模型，对文本进行分析和命名实体识别。将中文文本中出现的每一个字都构建特征向量，其特征包括位置特征和字符特征。然后把这组句子所对应的特征向量作为神经网络模型的输入，经过Bi‑LSTM以及CRF层后将结果映射到相应的实体标签，完成实体识别任务。该方法仅需要训练文本以及输入语句就可以完成实体识别，是一种灵活方便的方法。

技术领域

本发明涉及中文语言处理和识别技术领域，具体是一种基于神经网络的中文命名实体识别方法。

背景技术

随着网络市场的蓬勃发展与Web技术的不断演进，互联网逐步迈向基于知识互联的“Web 3.0”时代。传统的基于关键字的信息检索方式已经难以满足用户全面快速获取信息和知识资源的需求。命名实体识别作为信息抽取的重要基础任务，自动化地从自然语言中识别相关实体。从而为知识图谱的三元组构建提供基础，使得为用户提供更加智能的信息检索方式成为可能。同时，也对一些计算机的研究方向提供帮助，包括情感分析、智能问答、语义搜索等。在中文实体领域中，基于深度学习的命名实体识别技术主要将识别任务转化为序列标记任务。其中，基于字符的方法和基于词的方法是两种主流的处理方法。基于词的方法受到分词结果的影响，中文分词器产生的错误信息直接带入到命名实体识别的神经网络中去。基于字符的方法未能考虑词的影响，实际上提供词边界信息能够有效提升识别率。因此，本发明旨在提供一种基于深度学习并综合利用字符和词特征的方法，从而提高中文命名实体的识别率。

发明内容

本发明的目的在于克服现有技术的不足，而提供一种基于神经网络的中文命名实体识别方法，该方法对比现有技术可以通过训练出一组位置特征向量提高中文命名实体的识别率，对于整个识别任务能够灵活计算每次输入的文本，不受文本形式限制，容易实现，并且开发和运行成本较低，通过一台服务器便可实现中文实体识别服务，判断的速度和准确率也较高。

实现本发明目的的技术方案是：

一种基于神经网络的中文命名实体识别方法，是利用标签方法标记字符的位置信息并使用神经网络学习特征向量，再使用神经网络模型识别命名实体，包括如下步骤：

1）对训练集的字符预处理：

1-1）将训练集的文本进行文字分割，使字与字之间分开；

1-2）将分开的字转换成字典，每个字都有对应的数字ID；

1-3）将训练集的句子每个字都转换成相应的字典ID，得到句子向量；

2）获取字符位置标签：

2-1）将训练集文本中的每一段句子进行全模式的词分割，为每个句子构建词组集合；

2-2）将词组集合中每个词的字符用标签进行位置标记，得到词组标签；

2-3）对训练集文本中的每一段句子进行精确模式的词分割，使用标签标记分割位置，得到句子标签；

2-4）将步骤2-2）得到的词组标签和步骤2-3）得到的句子标签进行比对，根据标签的异同生成连接点标记序列；

2-5）将步骤2-2）得到的词组标签进行两两比对，根据标签的异同生成歧义点标记序列；