[发明专利]一种词汇表的选择方法、装置及计算机可读存储介质在审
申请号: | 201810751994.9 | 申请日: | 2018-07-10 |
公开(公告)号: | CN110705279A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 童毅轩;张永伟;董滨;姜珊珊;张佳师 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 11243 北京银龙知识产权代理有限公司 | 代理人: | 黄灿;姜精斌 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词汇表 词汇 权重 计算机可读存储介质 神经网络模型 模型参数 目标词汇 目标神经 网络模型 训练过程 训练模型 训练目标 训练效率 筛选 更新 | ||
本发明实施例提供了一种词汇表的选择方法、装置及计算机可读存储介质。本发明实施例提供的词汇表的选择方法,基于第一词汇表对预训练模型进行训练,并在训练过程中更新模型参数以及词汇权重,进而在训练结束后,利用所获得的目标词汇的词汇权重,对第一词汇表中的词汇进行筛选,得到用于训练目标神经网络模型的第二词汇表,该第二词汇表中包括有价值更高的词汇,从而在基于第二词汇表对目标神经网络模型进行训练时可以提高模型的训练效率减少训练时间,并提升训练得到的模型的准确性。
技术领域
本发明涉及语言信息处理技术领域,具体涉及一种词汇表的选择方法、装置及计算机可读存储介质。
背景技术
在自然语言处理中,当利用神经网络模型解决自然语言处理问题时,通常需要指定词汇表,并对神经网络模型进行训练,以得到具有特定功能的模型。例如,针对一种用于识别命名实体的模型,可以基于包含有人名实体以及非人名实体的其他词汇的词汇表,对该模型进行训练,最终得到的模型可以用于发现输入自然语言中的人名实体。
现有技术在基于词汇表对模型进行训练时,通常是从原始语料中提取样本词汇,得到样本词汇组成的词汇表,然后基于该词汇表对模型进行训练。由于基于原始语料中获得的词汇表通常包括有大量的词汇,且存在部分价值较低的词汇,因此,基于该词汇表训练模型,其训练效率较低所需时间较长,并且训练得到的模型也存在准确性较低的问题。
发明内容
本发明实施例要解决的技术问题是提供一种词汇表的选择方法、装置及计算机可读存储介质,用以选择并生成更适合于模型训练的词汇表,提高模型训练效率节省训练时间,并能够提高训练得到的模型的准确性。
为解决上述技术问题,本发明实施例提供的词汇表的选择方法,包括:
在目标神经网络模型中引入词汇权重层,建立预训练模型,所述词汇权重层用于根据词汇权重对第一词汇表中的目标词汇进行加权处理,并将加权处理后得到的目标词汇输入至所述目标神经网络模型;
基于所述第一词汇表,对所述预训练模型进行训练,更新所述预训练模型的模型参数以及词汇权重层的词汇权重,并在训练结束后,获得所述第一词汇表中目标词汇的词汇权重;
根据所述词汇权重,对所述第一词汇表进行筛选,得到第二词汇表。
优选的,在得到所述第二词汇表之后,所述方法还包括:
基于所述第二词汇表,对所述目标神经网络模型进行训练。
优选的,上述方法中,所述根据词汇权重对第一词汇表中的目标词汇进行加权处理,包括:
对所述目标词汇对应的目标词向量和未知词汇对应的未知词向量进行加权求和,其中,所述目标词向量的第一权重是所述目标词汇的词汇权重的正相关函数,所述未知词向量的第二权重是所述目标词汇的词汇权重的负相关函数,且所述第一权重与第二权重之和为一预设值;所述未知词汇为所述第一词汇表中不存在的词汇,且所述第一词汇表中不存在的词汇均对应于同一个未知词向量。
优选的,上述方法中,所述第一权重是所述目标词汇的词汇权重的第一函数,所述第一函数用于将所述目标词汇的词汇权重映射到0至1之间;所述第二权重是所述第一权重的第二函数,且与所述第一权重负相关。
优选的,上述方法中,所述目标词向量和所述未知词向量通过随机初始化或词向量的预训练算法进行初始化。
优选的,上述方法中,所述根据所述词汇权重,对所述第一词汇表进行筛选的步骤,包括:根据词汇权重的高低顺序,从所述第一词汇表中选择出第二数量的词汇,得到所述第二词汇表;或者,从所述第一词汇表中选择出词汇权重在预设数值范围内的词汇,得到所述第二词汇表;其中,所述第二词汇表中的词汇数量少于第一词汇表中的词汇数量。
优选的,上述方法中,在建立所述预训练模型之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810751994.9/2.html,转载请声明来源钻瓜专利网。