[发明专利]一种基于深度神经网络的法语命名实体识别方法有效
申请号: | 201910039188.3 | 申请日: | 2019-01-16 |
公开(公告)号: | CN109871535B | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 王文贤;唐瑞;陈兴蜀;严红;王海舟 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 51284 成都禾创知家知识产权代理有限公司 | 代理人: | 裴娟 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 法语 神经网络 神经网络模型 测试集 构建 向量 语料 单词 形态结构特征 上下文信息 新闻文本 语义特征 字符向量 词向量 法语词 向量集 训练集 准确率 语法 标注 三维 敏感 | ||
本发明公开了一种基于深度神经网络的法语命名实体识别方法,包括以下步骤:步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC‑fr;步骤2:获取法语新闻文本,训练法语词向量,得到词‑词向量集;步骤3:使用标注的法语命名实体识别语料,得到词‑字符向量集和词‑语法向量集;步骤4:将语料划分为测试集和训练集,形成对应的三维向量;步骤5:对神经网络模型进行训练;步骤6:对测试集进行命名实体识别;本发明充分考虑法语单词的语义特征,构建的神经网络对单词的形态结构特征敏感,可兼顾上下文信息,针对性强,识别准确率高。
技术领域
本发明涉及法语命名实体识别技术领域,具体涉及一种基于深度神经网络的法语命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER)是指在文本识别出特定类型事务名称或符号的过程;这些类型通常是预先定义的,常见命名实体类型有三大类:人名、机构名、地名,除此之外还有七小类;它是自然语言处理的一个基础任务,从文本中提取出可能更具有意义的人名、组织名、地名等,使得后续的自然语言处理任务能根据抽取得到的命名实体进一步处理获取需要的信息;在其之上还有命名实体链接、实体关系提取、时间抽取等多种任务依赖于它;有一些相对复杂的任务例如话题检测、文本摘要、机器翻译等将命名实体识别作为中间环节用于提升效果。
随着全球化发展,各国之间信息交换日益频繁,外语的舆情文本信息逐渐增多,相比于中文,外语信息更能影响其他国家对中国的看法,而了解这些信息非常重要;法语在非英语的语种中影响力相对较大,其文本是多种舆情分析中的重要目标之一;在舆情文本分析中,命名实体识别是文本分析的基础任务,重要性不可忽视;在命名实体识别的领域,英文方面的研究有很多,而法语方面的较少;目前对法语文本的研究中,通常采用人工选择分辨命名实体和非命名实体的特征,然后由机器学习模型进行学习,识别出文本中存在的命名实体;这些特征包括词后缀、字符窗口、临近词、词前缀、单词长度、首字母是否大写等等;可以看出多为单词或文本的形态结构特征而非语义特征;除此之外,多语言通用的命名实体识别方法也可以应用到法语中,但是这种识别方法一般是以英语为研究主体,法语和其他语言套用英语的方法;但是其识别效果和英语相比有一定的差距,法语与英语相比不但词的种类复杂,词的用法位置以及由此导致整个句子的性数变化也不同,直接应用到法语命名实体识别上,识别的准确率相对较低。
发明内容
本发明提供一种兼顾文本中的形态结构特征、语义特征和语法特征,识别准确率高的基于深度神经网络的法语命名实体识别方法。
本发明采用的技术方案是:一种基于深度神经网络的法语命名实体识别方法,包括以下步骤:
步骤1:构建基于深度神经网络面向法语命名实体识别的神经网络模型CGC-fr;
CGC-fr包括文本特征层、上下文特征层和CRF层;
文本特征层将输入的句子中的每个单词转换为一个特征向量ri,得到特征序列{r1,r2,…,rN};i=1,2,…N,N为句子中单词的数量;
上下文特征层将特征序列通过双向门控循环网络BiGRU网络得到输出序列,经线性层得到句子的上下文特征;
CRF层将上下文特征通过BIO标注每个词在实体中的位置信息,通过条件随机场CRF得到单词的实体标签;
步骤2:获取法语新闻文本,训练法语词向量,得到词-词向量集;
步骤3:使用标注的法语命名实体识别语料,训练对应的字符向量与语法特征向量,分别得到词-字符向量集和词-语法向量集;
步骤4:将步骤3中识别得到的语料划分为测试集和训练集,根据步骤2得到的词-词向量集和步骤3得到的词-字符向量集、词-语法向量集将测试集和训练集中的语料形成对应的三维向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910039188.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:中英混合语料的生成方法、装置、设备及存储介质
- 下一篇:地名识别方法和装置