[发明专利]一种语言模型的训练方法及装置有效
申请号: | 201910086877.X | 申请日: | 2019-01-29 |
公开(公告)号: | CN109800435B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 李长亮;徐智涛;齐济 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;北京金山软件有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/216;G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张小娜;王宝筠 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 模型 训练 方法 装置 | ||
本申请公开了一种语言模型的训练方法及装置,所述方法包括:在获取到包括大量样本文本的语言模型训练数据后,可以将这些样本文本进行分词处理,以得到每一分词的分词标签,其中,分词标签包括对应分词中的每一字在对应分词中的位置信息,接着,可以根据这些样本文本中每一分词的分词标签,对语言模型进行训练。可见,本申请将样本文本的分词标签作为训练数据对语言模型进行训练,使得训练语言模型所使用的数据更为全面,从而能够降低语言模型的PPL值,提升了语言模型的效果。
技术领域
本申请涉及计算机技术领域,尤其涉及一种语言模型的训练方法及装置。
背景技术
语言模型可以对一段文本的概率进行估计,即,描述一个字符串属于自然语言的概率。语言模型可以使用在许多自然语言处理方面的应用,比如,语音识别、机器翻译、词性标注、句法分析、以及资讯检索,等等。
然而,现有的语言模型的效果还不够理想,因此,如何提高语言模型的效果是目前丞待解决的技术问题。
发明内容
本申请实施例的主要目的在于提供一种语言模型的训练方法及装置,能够提升语言模型的效果。
本申请实施例提供了一种语言模型的训练方法,包括:
获取语言模型的训练数据,所述训练数据包括大量的样本文本;
将所述样本文本进行分词处理,得到每一分词的分词标签,所述分词标签包括对应分词中的每一字在对应分词中的位置信息;
根据所述样本文本中每一分词的分词标签,对所述语言模型进行训练。
可选的,所述根据所述样本文本中每一分词的分词标签,对所述语言模型进行训练,包括:
将所述样本文本中的每一字作为目标字;
生成所述样本文本中每一目标字的标签向量,所述标签向量表征了对应目标字所属分词的分词标签中包含的对应目标字的相关信息;
根据所述样本文本中每一目标字的标签向量,对所述语言模型进行训练。
可选的,所述根据所述样本文本中每一目标字的标签向量,对所述语言模型进行训练,包括:
获取所述样本文本中每一目标字的字向量;
将所述样本文本中同一目标字的字向量和标签向量进行向量融合,得到第一融合向量;
根据所述样本文本中每一目标字的第一融合向量,对所述语言模型进行训练。
可选的,所述将所述样本文本中同一目标字的字向量和标签向量进行向量融合,包括:
将所述样本文本中同一目标字的标签向量,插入所述同一目标字的字向量的预设位置处;
或者,将所述样本文本中同一目标字的标签向量,替换所述同一目标字的字向量中的向量元素。
可选的,所述根据所述样本文本中每一分词的分词标签,对所述语言模型进行训练,包括:
将所述样本文本中的每一分词作为目标分词;
生成所述样本文本中每一目标分词的标签向量,所述标签向量表征了对应目标分词的分词标签的信息;
根据所述样本文本中每一目标分词的标签向量,对所述语言模型进行训练。
可选的,所述根据所述样本文本中每一目标分词的标签向量,对所述语言模型进行训练,包括:
获取所述样本文本中每一目标分词的词向量;
将所述样本文本中同一目标分词的词向量和标签向量进行向量融合,得到第二融合向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;北京金山软件有限公司,未经北京金山数字娱乐科技有限公司;北京金山软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910086877.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于眼动注意力的抽象文本标题生成方法
- 下一篇:问卷调查方法及系统