[发明专利]一种基于深度神经网络的法语命名实体识别方法有效

专利信息
申请号: 201910039188.3 申请日: 2019-01-16
公开(公告)号: CN109871535B 公开(公告)日: 2020-01-10
发明(设计)人: 王文贤;唐瑞;陈兴蜀;严红;王海舟 申请(专利权)人: 四川大学
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04
代理公司: 51284 成都禾创知家知识产权代理有限公司 代理人: 裴娟
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 命名实体 法语 神经网络 神经网络模型 测试集 构建 向量 语料 单词 形态结构特征 上下文信息 新闻文本 语义特征 字符向量 词向量 法语词 向量集 训练集 准确率 语法 标注 三维 敏感
【权利要求书】:

1.一种基于深度神经网络的法语命名实体识别方法,其特征在于,包括以下步骤:

步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC-fr;

CGC-fr包括文本特征层、上下文特征层和CRF层;

文本特征层将输入的句子中的每个单词转换为一个特征向量ri,得到特征序列{r1,r2,…,rN};i=1,2,…N,N为句子中单词的数量;

针对每一个特征向量具体表示为:r=[rword,rchar,rsem],其中rword为表示单词语义特征的词嵌入,rchar为表示单词形态结构特征的全局字符特征,rsem为语法特征;

其中:

式中:为词汇表中第n个词的词嵌入,Wword为词汇表所有词嵌入构成的矩阵,为大小为V的onehot向量,n为1到V之间的一个整数,w为法语单词,V为词汇表的大小;

rchar提取过程如下:

给定一个法语单词w,表示为字符嵌入序列,将上述字符嵌入序列作为CNN的输入,定义F个卷积核,将每个卷积核以滑动窗口在字符嵌入序列上滑动,得到一系列字符嵌入的子序列;将字符嵌入的子序列通过池化得到全局字符特征rchar

上下文特征层将特征序列通过双向门控循环网络BiGRU网络得到输出序列,经线性层得到句子的上下文特征;

CRF层将上下文特征通过BIO标注每个词在实体中的位置信息,通过条件随机场CRF得到单词的实体标签;

步骤2:获取法语新闻文本,训练法语词向量,得到词-词向量集;

步骤3:使用标注的法语命名实体识别语料,训练对应的字符向量与语法特征向量,分别得到词-字符向量集和词-语法向量集;

步骤4:将步骤3中识别得到的语料划分为测试集和训练集,根据步骤2得到的词-词向量集和步骤3得到的词-字符向量集、词-语法向量集将测试集和训练集中的语料形成对应的三维向量;

具体的,三维向量表示如下:

对语料进行文本预处理,用二维数组Array_Term存储整个语料;第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号;

词-词向量集:通过三维数组Array_Word2Vec存储法语命名识别语料的嵌入,第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号,第三个维度为词向量;

词-字符向量集:二维数组Array_Term中按字母分隔其中的每个词,用三维数组Array_Char存储整个语料的字符表示形式;按照字母出现的顺序,得到非重复的字母表,建立字符索引,形成三维数组Array_CharVec用于存储整个语料的字符向量;

词-语法向量集:通过Spacy对法语命名实体识别语料中每个词进行词性标注,形成二维数组Array_Pos,按照词性出现的先后顺序,得到非重复的词性表,形成词性索引;将每个索引替换成One-Hot形式,形成三维数组Array_PosVec用于存储整个语料的语法特征向量

步骤5:根据步骤4得到的训练集对步骤1构建的神经网络模型进行训练;

步骤6:采用步骤5训练得到的神经网络模型对步骤4得到的测试集进行命名实体识别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910039188.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top