[发明专利]一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统有效

专利信息
申请号: 201810789114.7 申请日: 2018-07-18
公开(公告)号: CN109255119B 公开(公告)日: 2023-04-25
发明(设计)人: 陈涛;吴明芬 申请(专利权)人: 五邑大学
主分类号: G06F40/205 分类号: G06F40/205;G06F40/279;G06F40/295;G06N3/0442;G06N3/08
代理公司: 广州市红荔专利代理有限公司 44214 代理人: 吴伟文
地址: 529020 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 分词 命名 实体 识别 任务 深度 神经网络 句子 主干 分析 方法 系统
【权利要求书】:

1.一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于包括以下步骤:

S1)、分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给下一层神经网络,即多任务参数共享层网络;

其中,使用带有条件随机场的双向LSTM神经网络对中文分词语料进行分词,具体如下:

输入的中文句子分为训练集和测试集两类,训练集中的句子采用人工标注的方式进行分词,用空格作为词与词之间的分隔符;

测试集中的句子则是未经过分词的中文句子;

带有条件随机场的双向LSTM神经网络在训练集上训练分词模型,在测试集上测试该模型的性能;

带有条件随机场的双向LSTM神经网络进行命名实体识别,具体如下:

输入的中文命名实体识别语料分为训练集和测试集两类;

训练集中的句子通过人工标注了命名实体,所采用的标记方法是BIO标记法,其中,B表示命名实体的开始词;I表示命名实体的中间词或结尾词;O表示命名实体之外的词;

将带有上述BIO标记的人工标注好命名实体的训练集句子输入到带有条件随机场的双向LSTM网络中,对神经网络进行训练,通过调节神经网络的参数实现模型的优化;

将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中,神经网络会给该句子中的每个词自动标注一个BIO标记,从而实现命名实体的自动学习和识别;

带有条件随机场的双向LSTM神经网络进行中文句子主干分析,具体如下:与前面的中文分词和命名实体识别相似,输入的中文句子主干分析语料分为训练集和测试集两类;

将人工标注了句子主干成分的中文句子作为训练集,将未标注句子主干成分的句子作为测试集,输入到带有条件随机场的双向LSTM网络中,进行训练;

其中标记句子主干成分采用Y/N标记方法标记出来,Y表示是句子主干成分,N表示不是句子主干成分;

将上一层网络识别出来的命名实体作为一个长词看待;

带有条件随机场的双向LSTM神经网络在上述训练集上训练句子主干分析模型,在测试集上测试该模型的性能;

将三个网络的输出向量分别传递给多任务参数共享层网络,具体如下:负责上述三个任务(中文分词任务、命名实体识别任务和句子主干分析任务)的带有条件随机场的双向LSTM神经网络在训练过程中输出每个任务的特征向量,这些向量具有一定的与所训练任务相关的句法或语义信息;将上述特征向量传递给下一层网络,即多任务参数共享层网络,用于多任务机器学习;

所述的双向LSTM神经网络由输入层、BiLSTM层和CRF层组成,其中,BiLSTM层由一个前向LSTM网络和个后向LSTM网络组成,因此,它可以同时从前后两个方向学习句子序列的信息;CRF层由一个基于概率统计的条件随机场模型构成;双向LSTM神经网络是一种带有长距离短期记忆单位作为隐含单元的循环神经网络;

S2)、多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;

多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,具体如下:

全连接的神经网络是指输入层与隐含层、隐含层与隐含层、隐含层与输出层之间,任意一个网络层中的神经元都和与其相邻的网络层的神经元两两互联组成的神经网络;

其中,多任务参数共享层网络的输入是负责中文分词任务、命名实体识别任务和句子主干分析任务的带有条件随机场的双向LSTM神经网络输出的特征向量,每个任务输出一个特征向量,三个特征向量收尾相连拼接成一个长向量,输入给多任务参数共享层网络;

将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层,具体如下:

全连接的神经网络的训练误差结果经过归一化后,反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层,用于调整这三个网络中神经元的权值和输入向量的值;

S3)、经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列;具体如下:

经过多个周期的迭代训练后,当整个网络达到收敛或者训练周期达到设定的最大训练周期数,迭代训练停止;

将带有句子主干标注信息的结果序列输出,并利用可视化方式将其呈现给用户。

2.一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析系统,其特征在于,所述的系统用于权利要求1的方法,具体包括:

中文分词模块,用于将中文句子文本切分成词汇序列;

命名实体识别模块:用于对分好词的中文句子进行命名实体识别,自动分析句子中的命名实体句子主干分析,并用BIO标签标记出来;

句子主干分析模块:用于对命名实体识别后的句子的进行句子主干分析,自动识别出句子中的主要成分,并用Y/N标签标记出来;

多任务参数共享模块:将上述三个模块输出的特征向量进行拼接和训练,将训练结果反向传递给负责三个任务的神经网络的输入层;

结果输出模块,用于将句子主干分析的结果以便于用户理解的方式可视化输出。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810789114.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top