首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]语言模型的训练及分词预测方法和装置、语言模型在审

申请号：	201911047639.4	申请日：	2019-10-30
公开（公告）号：	CN110826324A	公开（公告）日：	2020-02-21
发明（设计）人：	曹绍升;崔卿	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/126;G06N3/08;G06N3/04
代理公司：	北京博思佳知识产权代理有限公司 11415	代理人：	周嗣勇
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语言模型训练分词预测方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供一种语言模型的训练及分词预测方法和装置、语言模型，采用分词及其笔画集合来训练语言模型以及预测目标分词，由于提取出分词级以及笔画级的特征，特征粒度更小，因此，训练出的语言模型准确度较高，预测目标分词的准确性也越高。

技术领域

本说明书涉及人工智能技术领域，尤其涉及语言模型的训练及分词预测方法和装置、语言模型。

背景技术

通俗地说，语言模型的作用就是判定计算机生成的一个句子有多类似人类语言。语言模型有非常广泛的应用，比如在问答系统中，通过语言模型可以自动生成答语，并使得生成的答语除了能够准确回答问题外，表达也尽可能地类似人类语言。因此，有必要对语言模型进行改进，以提高语言模型的准确性。

发明内容

基于此，本说明书实施例提供了语言模型的训练及分词预测方法和装置、语言模型。

根据本说明书实施例的第一方面，提供一种语言模型的训练方法，所述方法包括：

获取训练文本；

分别获取所述训练文本中各个第一分词的第一笔画集合，其中，所述第一笔画集合中包括所述第一分词中各个字符的第一笔画编码；

将所述第一分词及其第一笔画编码作为所述语言模型的输入，将所述训练文本中位于所述第一分词之后的至少一个其他第一分词作为所述语言模型的输出，以训练所述语言模型。

应用本说明书实施例方案，从训练文本中获取第一分词以及各个第一分词的笔画集合，然后根据第一分词及其笔画集合共同训练语言模型，能够从训练文本中提取出分词级以及笔画级的特征，提取到的特征粒度更小，因此，根据上述特征训练得到的语言模型能够更加有效地提取出文本特征，从而提高语言模型的准确性。

根据本说明书实施例的第二方面，提供一种分词预测方法，所述方法包括：

获取第二分词及其第二笔画集合；其中，所述第二笔画集合中包括所述第二分词中各个字符的第二笔画编码；

将所述第二分词及其第二笔画编码输入预先训练的语言模型，以预测所述第二分词之后的至少一个目标分词。

应用本说明书实施例方案，将第二分词以及各个第二分词的笔画集合共同输入到预先训练的语言模型来预测所述第二分词之后的至少一个目标分词，能够在预测时提取出分词级以及笔画级的特征，提取到的特征粒度更小，因此，根据上述特征能够更加有效地提取出文本特征，从而提高语言模型的预测准确性。

根据本说明书实施例的第三方面，提供一种语言模型，所述语言模型包括：

依次相连的第一机器学习模型、第二机器学习模型和第三机器学习模型；

所述第一机器学习模型用于输入第二分词的第二笔画集合；其中，所述第二笔画集合中包括所述第二分词中各个字符的第二笔画编码；

所述第二机器学习模型用于输入所述第二分词；

所述第三机器学习模型用于对所述第二分词之后的至少一个目标分词进行预测。

应用本说明书实施例方案，将第二分词以及各个第二分词的笔画集合共同输入到预先训练的语言模型来预测所述第二分词之后的至少一个目标分词，能够在预测时提取出分词级以及笔画级的特征，提取到的特征粒度更小，因此，根据上述特征能够更加有效地提取出文本特征，从而提高语言模型的预测准确性。

根据本说明书实施例的第四方面，提供一种语言模型的训练装置，所述装置包括：

第一获取模块，用于获取训练文本；

第二获取模块，用于分别获取所述训练文本中各个第一分词的第一笔画集合，其中，所述第一笔画集合中包括所述第一分词中各个字符的第一笔画编码；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于支付宝（杭州）信息技术有限公司，未经支付宝（杭州）信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911047639.4/2.html，转载请声明来源钻瓜专利网。

上一篇：数据获取请求处理方法、装置、计算机设备及存储介质
下一篇：防压疮头位固定枕

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top