[发明专利]一种语言模型的训练方法及装置有效

申请号：	201910086877.X	申请日：	2019-01-29
公开（公告）号：	CN109800435B	公开（公告）日：	2023-06-20
发明（设计）人：	李长亮;徐智涛;齐济	申请（专利权）人：	北京金山数字娱乐科技有限公司;北京金山软件有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F40/216;G06N20/00
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	张小娜;王宝筠
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语言模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语言模型的训练方法及装置，所述方法包括：在获取到包括大量样本文本的语言模型训练数据后，可以将这些样本文本进行分词处理，以得到每一分词的分词标签，其中，分词标签包括对应分词中的每一字在对应分词中的位置信息，接着，可以根据这些样本文本中每一分词的分词标签，对语言模型进行训练。可见，本申请将样本文本的分词标签作为训练数据对语言模型进行训练，使得训练语言模型所使用的数据更为全面，从而能够降低语言模型的PPL值，提升了语言模型的效果。

技术领域

本申请涉及计算机技术领域，尤其涉及一种语言模型的训练方法及装置。

背景技术

语言模型可以对一段文本的概率进行估计，即，描述一个字符串属于自然语言的概率。语言模型可以使用在许多自然语言处理方面的应用，比如，语音识别、机器翻译、词性标注、句法分析、以及资讯检索，等等。

然而，现有的语言模型的效果还不够理想，因此，如何提高语言模型的效果是目前丞待解决的技术问题。

发明内容

本申请实施例的主要目的在于提供一种语言模型的训练方法及装置，能够提升语言模型的效果。

本申请实施例提供了一种语言模型的训练方法，包括：

获取语言模型的训练数据，所述训练数据包括大量的样本文本；

将所述样本文本进行分词处理，得到每一分词的分词标签，所述分词标签包括对应分词中的每一字在对应分词中的位置信息；

根据所述样本文本中每一分词的分词标签，对所述语言模型进行训练。

可选的，所述根据所述样本文本中每一分词的分词标签，对所述语言模型进行训练，包括：