[发明专利]一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统有效
申请号: | 201810789114.7 | 申请日: | 2018-07-18 |
公开(公告)号: | CN109255119B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 陈涛;吴明芬 | 申请(专利权)人: | 五邑大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/279;G06F40/295;G06N3/0442;G06N3/08 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吴伟文 |
地址: | 529020 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分词 命名 实体 识别 任务 深度 神经网络 句子 主干 分析 方法 系统 | ||
本发明提供一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法、及系统,本发明分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给多任务参数共享层网络;多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给双向LSTM神经网络的输入层;经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。本发明采用基于深度学习的人工神经网络和句子中语义元素的多任务学习相结合的方法,能够提高系统准确性、反应速度和容错性。
技术领域
本发明涉及一种自然语言处理技术领域,尤其是一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统。
背景技术
对文本数据中的句子主干进行自动化分析是自然语言处理、句法分析等人工智能技术的重要应用领域,其主要目的是应用自然语言处理技术和机器学习技术,让计算机自动对数字化文本中的句子进行分析,输出句子的主语、谓语、宾语等关键信息的结构化表示。
本发明的基本思想是:首先,使用三个带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,上述三个任务分别在三个独立的神经网络上进行训练,三个任务的神经网络分别输出特征向量传递给多任务参数共享层网络;(2)多任务参数共享层网络使用全连接的神经网络对上述三个任务传递来的特征向量进行拼接和训练,然后将训练的结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;(3)经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。
其中,中文分词是使用计算机和自然语言处理技术自动将中文句子切分成词的序列。命名实体,英文为Named Entity,在自然语言处理领域是指具有命名性的指称形式的实体,而实体是文本中承载信息的重要语言单元。命名实体识别(Named EntityRecognition,NER)作为文本信息抽取任务中的一种,主要研究如何从一段自然语言文本中找出相关实体,并标注出其位置以及类型。常见的命名实体划分类型包括:人名、地名、机构名、时间、货币等。句子主干分析是指使用计算机和自然语言处理技术自动对中文句子中的主语、谓语、宾语等关键信息进行标示,即进行结构化表示。
随着网络信息技术的不断发展,尤其是大数据、云计算、移动互联网的发展,越来越多的人通过网络分享自己的观点、体验和心情。这种开放、自由的信息共享与流动方式带来了信息的巨大积累。然而,这些积累的信息大多是以自然语言、声音、图像、视频等非结构化的形式保存的,急需一种技术能够自动、高效的从这些信息中提取知识。随着人工智能、机器学习、自然语言处理技术的不断发展和信息系统应用范围的不断深化,对文本数据进行自动化句子主干分析已经成为自然语言处理中的关键性问题之一。它对于解决机器翻译、信息抽取和自动文摘等任务都有重要的意义,它是将人工智能、自然语言处理应用于企业生产,提高企业生产效率和竞争优势的重要技术措施之一。
现有的句子主干分析技术多采用单一任务的方式进行分析,未考虑其它相关任务的有利影响,而句子是由词构成的,句子主干多为命名实体,在训练句子主干分析模型的同时,在不增加人工标注语料的情况下,通过对分词语料、命名实体识别语料的进行多任务同时训练和学习,将中文分词和命名实体识别任务中学习到的语言学特征应用到句子主干分析模型的训练中,有利于提高句子主干分析的效果。
发明内容
针对现有技术的不足,本发明提供一种能够利用中文分词、命名实体识别模型训练中学习到的语言学特征知识的基于多任务学习和深度神经网络的自动句子主干分析方法、系统。
本发明的技术方案为:一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810789114.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种关键词提取方法及装置
- 下一篇:一种老挝语分词方法