[发明专利]一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统有效
申请号: | 201810789276.0 | 申请日: | 2018-07-18 |
公开(公告)号: | CN109241520B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 陈涛;吴明芬 | 申请(专利权)人: | 五邑大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/0464;G06N3/049 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吴伟文 |
地址: | 529020 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分词 命名 实体 识别 多层 误差 反馈 神经网络 句子 主干 分析 方法 系统 | ||
本发明提供一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统,本发明首先对中文句子进行分词,将其切分成词的序列,然后对词序列进行命名实体识别,将属于同一个命名实体的词合并,最后对命名实体识别后的句子进行主干分析,可视化输出识别出的句子主要成分。本发明采用基于深度学习的人工神经网络和从词到命名实体再到句子的多层语义元素结构信息相结合的方法,针对不同层次的结构信息分别训练和优化深度神经网络,通过多层误差反馈提高句子主干分析的效果。该方法能够提高系统准确性、反应速度和容错性。
技术领域
本发明涉及一种自然语言处理技术领域,尤其是一种基于分词和命名实体识别的多层误差反馈神经网络的句子主干分析方法及系统。
背景技术
对文本数据中的句子主干进行自动化分析是自然语言处理、句法分析等人工智能技术的重要应用领域,其主要目的是应用自然语言处理技术和机器学习技术,让计算机自动对数字化文本中的句子进行分析,输出句子的主语、谓语、宾语等关键信息的结构化表示。本发明的基本思想是:首先,对中文句子进行分词,将其切分成词的序列;然后,对上述词的序列进行命名实体识别,将属于同一个命名实体的多个词进行合并,并表示为同一个命名实体;最后对命名实体识别后的句子进行主干分析,可视化输出识别出的句子主要成分。
命名实体,英文为Named Entity,在自然语言处理领域是指具有命名性的指称形式的实体,而实体是文本中承载信息的重要语言单元。命名实体识别(Named EntityRecognition,NER)作为文本信息抽取任务中的一种,主要研究如何从一段自然语言文本中找出相关实体,并标注出其位置以及类型。常见的命名实体划分类型包括:人名、地名、机构名、时间、货币等。
随着信息技术的不断发展和信息系统应用范围的不断深化,对文本数据进行自动化句子主干分析已经成为自然语言处理中的关键性问题之一,对于解决机器翻译、信息抽取和自动文摘等任务都有重要的意义,它是将人工智能、自然语言处理应用于企业生产,提高企业生产效率和竞争优势的重要技术措施之一。
对于需要处理大量文本数据的行业而言,随着各类数字化业务的开拓,如何在浩如烟海的数字化资料中获取想要的信息,发掘数据中隐藏的商机(如用户的兴趣与需求、市场的变化等)是大数据处理行业面对的直接挑战。但是,现有的技术大多是利用机器学习方法(如最大熵模型)对预处理过(如分词、词性标注、断句等)的句子进行分析,未考虑句子中从词到命名实体(如是人名、地名、机构名等)到句子的层次结构,更没有一种利用此类多层结构的句子主干分析方法,分析效果有限。对大规模文本而言,急需一种比较实用的能够代替人工处理的方式对句子主干进行分析的方法。
发明内容
针对现有技术的不足,本发明提供一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法、系统及系统,本发明的首先对中文句子进行分词,将其切分成词的序列,然后对词序列进行命名实体识别,将属于同一个命名实体的词合并,最后对命名实体识别后的句子进行主干分析,可视化输出识别出的句子主要成分。
本发明采用基于深度学习的人工神经网络和句子中语义元素的多层结构信息相结合的方法,能够提高系统准确性、反应速度和容错性。
本发明的技术方案为:一种能够利用词、命名实体到句子的层次化信息的基于多层误差反馈神经网络的自动句子主干分析方法,包括以下步骤:
S1)、使用双向LSTM神经网络对输入的中文句子进行分词,并将分词误差传递给下一层神经网络;
S2)、使用双向LSTM神经网络对分词后的句子进行命名实体识别,并将识别误差传递给下一层神经网络传递;
S3)、使用双向LSTM神经网络对命名实体识别后的句子进行句子主干分析,并将分析误差反向传递回整个网络的输入层;
S4)、经过多个周期的迭代训练后,当句子主干分析的训练误差收敛或训练周期达到一定数量时,输出带有句子主干标注信息的结果序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810789276.0/2.html,转载请声明来源钻瓜专利网。