[发明专利]自然语言处理模型训练方法和自然语言处理模型在审
申请号: | 201911292065.7 | 申请日: | 2019-12-16 |
公开(公告)号: | CN111062209A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 俞凯;马娆;金乐盛;刘奇;陈露 | 申请(专利权)人: | 苏州思必驰信息科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 处理 模型 训练 方法 | ||
本发明公开一种自然语言处理模型训练方法,包括:将当前训练样本输入至输入层,以得到对应于当前训练样本的样本向量;LSTM神经网络对样本向量进行处理,以得到对应于当前训练样本的隐藏层输出;获取对应于当前训练样本的多个词义嵌入;输出层根据隐藏层输出和多个词义嵌入确定对应于每一个词义嵌入的权重值;根据多个词义嵌入和每一个词义嵌入的权重值确定对应于当前训练样本的消歧词嵌入;通过对消歧词嵌入和当前训练样本的真实词义嵌入进行最小化交叉熵处理,以完成对自然语言处理模型的训练。通过LSTM获取当前训练样本的上下文信息,从而能够基于LSTM的隐藏层输出确定出对应于当前训练样本的不同词义嵌入的各自的权重值,进而实现消歧的目的。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种自然语言处理模型训练方法和自然语言处理模型。
背景技术
语言模型能够对单词序列的联合概率分布进行建模,从而衡量句子的流畅性与合理程度。常见的语言模型有n-gram语言模型与神经网络语言模型。由于拥有更良好的性能,神经网络语言模型在自动语音识别和自然语言处理领域被广泛使用。根据隐藏层结构的不同,神经网络语言模型可分为RNN、LSTM等模型。
n-gram语言模型是一种统计模型,对训练语料中所有n元组出现的频度进行统计来计算整句话的概率。与n-gram语言模型相比,神经网络语言模型使用向量表示单词和上下文信息,并拥有更好的泛化性能。循环神经网络(RNN)拥有另一个优点,即估算概率时考虑了所有的历史单词。针对RNN梯度爆炸或梯度消失的问题,有研究者提出了性能更好的长短时记忆神经网络(LSTM)。目前,LSTM语言模型被应用得最多。
通常,神经网络语言模型由三部分组成:输入嵌入层,隐藏层和输出嵌入层。每个嵌入层将单词映射到一个实值向量,也即单词的“分布式表示”。多义是自然语言中一种普遍的现象,在常见词中经常出现。例如,在“他是代表小李来参加学生代表大会的”一句中,“代表”一词分别指代了动词与名词的两种不同含义。尽管词嵌入在捕获语义特征方面取得了成功,但它天然地无法处理词语的多义性。
此外,多义词的嵌入将被训练为近似其不同语义含义的平均值。假设距离度量为d,根据三角不等式,d(x,y)≤d(x,z)+d(y,z)。因此,与同一个单词的不同词义同义的单词对将在向量空间中被错误地拉向彼此。例如,“代替”和“委员”的距离将不超过距离d(代替,代表)和d(委员,代表)的总和。
在目前的神经网络语言模型中,每个单词仅与词嵌入中的单个词向量关联,忽略了不同词义之间可能存在的差别。
发明内容
本发明实施例提供一种自然语言处理模型训练方法和自然语言处理模型,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种自然语言处理模型训练方法,所述语言模型包括输入层、隐藏层和输出层,所述隐藏层采用LSTM神经网络,所述方法包括:
将当前训练样本输入至所述输入层,以得到对应于所述当前训练样本的样本向量;
所述LSTM神经网络对所述样本向量进行处理,以得到对应于所述当前训练样本的隐藏层输出;
获取对应于所述当前训练样本的多个词义嵌入;
所述输出层根据所述隐藏层输出和所述多个词义嵌入确定对应于每一个词义嵌入的权重值;
根据所述多个词义嵌入和每一个词义嵌入的权重值确定对应于所述当前训练样本的消歧词嵌入;
通过对所述消歧词嵌入和所述当前训练样本的真实词义嵌入进行最小化交叉熵处理,以完成对所述自然语言处理模型的训练。
第二方面,本发明实施例提供一种自然语言处理方法,采用前述任一项所述的方法训练得到的自然语言处理模型进行自然语言处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州思必驰信息科技有限公司,未经苏州思必驰信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911292065.7/2.html,转载请声明来源钻瓜专利网。