[发明专利]一种基于深度神经网络的法语命名实体识别方法有效
申请号: | 201910039188.3 | 申请日: | 2019-01-16 |
公开(公告)号: | CN109871535B | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 王文贤;唐瑞;陈兴蜀;严红;王海舟 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 51284 成都禾创知家知识产权代理有限公司 | 代理人: | 裴娟 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 法语 神经网络 神经网络模型 测试集 构建 向量 语料 单词 形态结构特征 上下文信息 新闻文本 语义特征 字符向量 词向量 法语词 向量集 训练集 准确率 语法 标注 三维 敏感 | ||
1.一种基于深度神经网络的法语命名实体识别方法,其特征在于,包括以下步骤:
步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC-fr;
CGC-fr包括文本特征层、上下文特征层和CRF层;
文本特征层将输入的句子中的每个单词转换为一个特征向量ri,得到特征序列{r1,r2,…,rN};i=1,2,…N,N为句子中单词的数量;
针对每一个特征向量具体表示为:r=[rword,rchar,rsem],其中rword为表示单词语义特征的词嵌入,rchar为表示单词形态结构特征的全局字符特征,rsem为语法特征;
其中:
式中:为词汇表中第n个词的词嵌入,Wword为词汇表所有词嵌入构成的矩阵,为大小为V的onehot向量,n为1到V之间的一个整数,w为法语单词,V为词汇表的大小;
rchar提取过程如下:
给定一个法语单词w,表示为字符嵌入序列,将上述字符嵌入序列作为CNN的输入,定义F个卷积核,将每个卷积核以滑动窗口在字符嵌入序列上滑动,得到一系列字符嵌入的子序列;将字符嵌入的子序列通过池化得到全局字符特征rchar;
上下文特征层将特征序列通过双向门控循环网络BiGRU网络得到输出序列,经线性层得到句子的上下文特征;
CRF层将上下文特征通过BIO标注每个词在实体中的位置信息,通过条件随机场CRF得到单词的实体标签;
步骤2:获取法语新闻文本,训练法语词向量,得到词-词向量集;
步骤3:使用标注的法语命名实体识别语料,训练对应的字符向量与语法特征向量,分别得到词-字符向量集和词-语法向量集;
步骤4:将步骤3中识别得到的语料划分为测试集和训练集,根据步骤2得到的词-词向量集和步骤3得到的词-字符向量集、词-语法向量集将测试集和训练集中的语料形成对应的三维向量;
具体的,三维向量表示如下:
对语料进行文本预处理,用二维数组Array_Term存储整个语料;第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号;
词-词向量集:通过三维数组Array_Word2Vec存储法语命名识别语料的嵌入,第一个维度表示语料中句子对应的编号,第二个维度表示句子中词对应的编号,第三个维度为词向量;
词-字符向量集:二维数组Array_Term中按字母分隔其中的每个词,用三维数组Array_Char存储整个语料的字符表示形式;按照字母出现的顺序,得到非重复的字母表,建立字符索引,形成三维数组Array_CharVec用于存储整个语料的字符向量;
词-语法向量集:通过Spacy对法语命名实体识别语料中每个词进行词性标注,形成二维数组Array_Pos,按照词性出现的先后顺序,得到非重复的词性表,形成词性索引;将每个索引替换成One-Hot形式,形成三维数组Array_PosVec用于存储整个语料的语法特征向量
步骤5:根据步骤4得到的训练集对步骤1构建的神经网络模型进行训练;
步骤6:采用步骤5训练得到的神经网络模型对步骤4得到的测试集进行命名实体识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910039188.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:中英混合语料的生成方法、装置、设备及存储介质
- 下一篇:地名识别方法和装置