[发明专利]一种基于神经网络的中文命名实体识别方法有效
申请号: | 201811396784.9 | 申请日: | 2018-11-22 |
公开(公告)号: | CN109635279B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 姜超豪;钟艳如;赵蕾先;杨兵;李一媛;罗笑南 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 中文 命名 实体 识别 方法 | ||
本发明公开了一种基于神经网络的中文命名实体识别方法,采用机器学习方面的算法并且结合神经网络模型,对文本进行分析和命名实体识别。将中文文本中出现的每一个字都构建特征向量,其特征包括位置特征和字符特征。然后把这组句子所对应的特征向量作为神经网络模型的输入,经过Bi‑LSTM以及CRF层后将结果映射到相应的实体标签,完成实体识别任务。该方法仅需要训练文本以及输入语句就可以完成实体识别,是一种灵活方便的方法。
技术领域
本发明涉及中文语言处理和识别技术领域,具体是一种基于神经网络的中文命名实体识别方法。
背景技术
随着网络市场的蓬勃发展与Web技术的不断演进,互联网逐步迈向基于知识互联的“Web 3.0”时代。传统的基于关键字的信息检索方式已经难以满足用户全面快速获取信息和知识资源的需求。命名实体识别作为信息抽取的重要基础任务,自动化地从自然语言中识别相关实体。从而为知识图谱的三元组构建提供基础,使得为用户提供更加智能的信息检索方式成为可能。同时,也对一些计算机的研究方向提供帮助,包括情感分析、智能问答、语义搜索等。在中文实体领域中,基于深度学习的命名实体识别技术主要将识别任务转化为序列标记任务。其中,基于字符的方法和基于词的方法是两种主流的处理方法。基于词的方法受到分词结果的影响,中文分词器产生的错误信息直接带入到命名实体识别的神经网络中去。基于字符的方法未能考虑词的影响,实际上提供词边界信息能够有效提升识别率。因此,本发明旨在提供一种基于深度学习并综合利用字符和词特征的方法,从而提高中文命名实体的识别率。
发明内容
本发明的目的在于克服现有技术的不足,而提供一种基于神经网络的中文命名实体识别方法,该方法对比现有技术可以通过训练出一组位置特征向量提高中文命名实体的识别率,对于整个识别任务能够灵活计算每次输入的文本,不受文本形式限制,容易实现,并且开发和运行成本较低,通过一台服务器便可实现中文实体识别服务,判断的速度和准确率也较高。
实现本发明目的的技术方案是:
一种基于神经网络的中文命名实体识别方法,是利用标签方法标记字符的位置信息并使用神经网络学习特征向量,再使用神经网络模型识别命名实体,包括如下步骤:
1)对训练集的字符预处理:
1-1)将训练集的文本进行文字分割,使字与字之间分开;
1-2)将分开的字转换成字典,每个字都有对应的数字ID;
1-3)将训练集的句子每个字都转换成相应的字典ID,得到句子向量;
2)获取字符位置标签:
2-1)将训练集文本中的每一段句子进行全模式的词分割,为每个句子构建词组集合;
2-2)将词组集合中每个词的字符用标签进行位置标记,得到词组标签;
2-3)对训练集文本中的每一段句子进行精确模式的词分割,使用标签标记分割位置,得到句子标签;
2-4)将步骤2-2)得到的词组标签和步骤2-3)得到的句子标签进行比对,根据标签的异同生成连接点标记序列;
2-5)将步骤2-2)得到的词组标签进行两两比对,根据标签的异同生成歧义点标记序列;
2-6)每个标签对应有数字ID,将步骤2-4)和步骤2-5)的连接点标记序列和歧义点标记序列转换为数字ID的位置标签向量;
3)训练中文命名实体识别模型:
3-1)将步骤2-6)得到的位置标签向量置入全连接神经网络的Embedding层进行编码;
3-2)将步骤3-1)处理得到的数据置入全连接层,完成特征训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811396784.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语义表示方法及装置
- 下一篇:一种基于标注的事件抽取方法