[发明专利]扩充训练样本的方法和装置有效

申请号：	201910923491.X	申请日：	2019-09-27
公开（公告）号：	CN110704590B	公开（公告）日：	2022-04-12
发明（设计）人：	王雅芳;龙翀;张晓彤;张杰	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/35
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	孙欣欣;周良玉
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	扩充训练样本方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供一种扩充训练样本的方法和装置。方法包括：获取待扩充的初始训练样本组，包括第一数量的训练样本，训练样本包括历史对话组中的原始机器语句和原始用户语句，以及该对话组对应的类别标签，初始训练样本组中的各训练样本具有第一类别标签；从初始训练样本组中获取第二数量的训练样本；针对第二数量的训练样本中的各对话组，将与各对话组中的原始机器语句相关的第一机器语句输入预先训练的第一类别标签的对话生成模型，生成与各对话组中的第一机器语句分别对应的第一用户语句；将各对话组中的第一机器语句和对应的第一用户语句作为扩充训练样本加入初始训练样本组，得到扩充训练样本组。能够实现训练样本的数据均衡。

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及扩充训练样本的方法和装置。

背景技术

在机器人回答用户问题时，机器人与用户之间要进行对话后，针对包括机器语句和用户语句的对话组进行分类，根据分类结果确定用户的述求。上述分类可以包括确定对话组对应的标准问句，以便由机器人提供该标准问句对应的答案。其中，标准问句也称为标准问题，是整理的一些用户可能问的问题。每个问题有一个问题标识。

现有技术中，常常先将历史对话组作为训练样本对分类模型进行训练，然后利用训练好的分类模型对当前对话组进行分类。其中，训练样本的数据不均衡问题十分严重，例如，在5000多个标准问句分别对应的训练样本中，数量多的是数量少的10万倍。数据不均衡会导致分类模型偏向于将对话组确定为数据量大的训练样本的类别，因此如何解决数据不均衡问题成了提升分类准确性的核心问题。

发明内容

本说明书一个或多个实施例描述了一种扩充训练样本的方法和装置，能够实现训练样本的数据均衡。

第一方面，提供了一种扩充训练样本的方法，方法包括：

获取待扩充的初始训练样本组，所述初始训练样本组包括第一数量的训练样本，所述训练样本包括历史对话组中的原始机器语句和原始用户语句，以及该对话组对应的类别标签，所述初始训练样本组中的各训练样本具有第一类别标签；

根据待扩充的目标数量，从所述初始训练样本组中获取第二数量的训练样本；

针对第二数量的训练样本中的各对话组，将与各对话组中的原始机器语句相关的第一机器语句输入预先训练的所述第一类别标签的对话生成模型，通过所述对话生成模型生成与各对话组中的第一机器语句分别对应的第一用户语句；

将所述各对话组中的第一机器语句和对应的第一用户语句作为扩充训练样本加入所述初始训练样本组，得到扩充训练样本组，所述扩充训练样本具有所述第一类别标签。

在一种可能的实施方式中，所述方法还包括：

利用所述扩充训练样本组中的各训练样本对分类模型进行训练。

在一种可能的实施方式中，所述对话组包括多轮对话；

所述将与各对话组中的原始机器语句相关的第一机器语句输入预先训练的所述第一类别标签的对话生成模型，包括：

将与各对话组中的各轮对话的原始机器语句相关的第一机器语句输入预先训练的所述第一类别标签的对话生成模型。