[发明专利]机器学习组件的训练方法及装置、中文分词方法及装置有效

申请号：	201811510092.2	申请日：	2018-12-11
公开（公告）号：	CN111310459B	公开（公告）日：	2023-04-25
发明（设计）人：	王潇斌;徐光伟;李林琳;司罗	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06N3/088;G06N3/084
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	李辉;王天尧
地址：	英属开曼***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	机器学习组件训练方法装置中文分词
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种机器学习组件的训练方法，其特征在于，包括：

将有标记的句子转化为字向量；

对无标记的句子进行无监督分词，获得无监督分词结果；

将无监督分词结果转化为标签序列，标签序列中每一标签对应句子中每一字，标签表明字在分词中的位置；

将标签序列转化为标签向量；

将标签向量和字向量输入机器学习组件进行训练；

将标签向量和字向量输入机器学习组件进行训练，包括：

采用多任务学习方式，将标签向量和字向量输入机器学习组件进行训练；

采用多任务学习方式，将标签向量和字向量输入机器学习组件进行训练，包括：

分别用标签向量和字向量训练机器学习组件，在训练过程中，对机器学习组件的参数按参数属性进行更新；

对机器学习组件的参数按参数属性进行更新，包括：

若参数属性为共享属性，则根据标签向量和字向量对参数进行更新；

若参数属性为非共享属性，则根据标签向量或字向量对参数进行更新。

2.如权利要求1所述的方法，其特征在于，将无监督分词结果转化为标签序列前，还包括：滤除无监督分词结果中的噪音数据。

3.如权利要求1所述的方法，其特征在于，标签表明字在分词中的位置，包括：标签表明字在词的开始、中间或结尾，或字为单字词。

4.如权利要求1所述的方法，其特征在于，采用多任务学习方式，将标签向量和字向量输入机器学习组件进行训练，包括：

根据字向量确定有标记的句子的分词结果；根据有标记的句子的分词结果确定字向量对应的损失函数；

根据标签向量确定无标记的句子的分词结果；根据无标记的句子的分词结果确定标签向量对应的损失函数；

根据字向量对应的损失函数和标签向量对应的损失函数确定机器学习组件的损失函数；

调整机器学习组件的参数，直至机器学习组件的损失函数不小于预设值。

5.如权利要求4所述的方法，其特征在于，根据字向量确定有标记的句子的分词结果，包括：

根据字向量确定与有标记的句子对应的每个候选分词结果中每个词的词向量；

根据每个候选分词结果中每个词的词向量，确定每个候选分词结果的候选得分；

将候选得分最高的候选分词结果作为有标记的句子的分词结果。

6.如权利要求4所述的方法，其特征在于，根据标签向量确定无标记的句子的分词结果，包括：

根据标签向量确定与无标记的句子对应的每个候选分词结果中每个词的词向量；

根据每个候选分词结果中每个词的词向量，确定每个候选分词结果的候选得分；

将候选得分最高的候选分词结果作为无标记的句子的分词结果。

7.如权利要求5或6所述的方法，其特征在于，根据每个候选分词结果中每个词的词向量，确定每个候选分词结果的候选得分，包括：

根据每个候选分词结果中每个词的词向量确定每个词的词得分；

根据每个候选分词结果中每个词的词向量确定每个词的合理性得分；

根据每个候选分词结果中每个词的词得分和合理性得分，确定每个候选分词结果的候选得分。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811510092.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载