[发明专利]具有强化学习功能的问答语料学习方法在审

申请号：	202110137698.1	申请日：	2021-02-01
公开（公告）号：	CN112818101A	公开（公告）日：	2021-05-18
发明（设计）人：	张鸣;王海涛;詹威;王勤勤;汪鹏;吴凯;石克阳	申请（专利权）人：	杭州微洱网络科技有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/335;G06N20/00
代理公司：	杭州裕阳联合专利代理有限公司 33289	代理人：	张解翠
地址：	311121 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	具有强化学习功能问答语料学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种具有强化学习功能的问答语料学习方法，其特征在于，包括以下步骤：

通过模型A接收用户输入的若干问题并针对该若干问题分别输出相对应的答案；

将用户输入的若干问题中的每个问题和其对应的答案组成问答对；

通过模型B对若干所述问答对进行打分；

通过打分后的若干所述问答对对模型A进行增量学习。

2.根据权利要求1所述的具有强化学习功能的问答语料学习方法，其特征在于，

所述通过打分后的若干所述问答对对模型A进行增量学习的具体方法为：

将若干所述问答对中打分值高于第一预设值的问答对作伪标签直接参与到所述模型A的增量学习中；

将若干所述问答对中打分值低于第二预设值的问答对置为负样本参与到所述模型A的增量学习中。

3.根据权利要求2所述的具有强化学习功能的问答语料学习方法，其特征在于，

所述模型B对若干所述问答对进行打分的分值区间为0至1。

4.根据权利要求3所述的具有强化学习功能的问答语料学习方法，其特征在于，

所述第一预设值为0.8；所述第二预设值为0.2。

5.根据权利要求1所述的具有强化学习功能的问答语料学习方法，其特征在于，

所述模型A在增量学习过程中，所述模型A对该若干问题分别重新输出相对应的答案以组成新问答对；所述模型B对所述新问答对进行评分并得到平均分score1；根据如下公式得到惩罚系数W，并将惩罚系数W作用于所述模型A的损失函数Loss_A上,得到新损失函数Loss_new以指导所述模型A进行梯度回传，更新所述模型A的参数：

W＝-ln(score1),

Loss_new＝loss_A*W。

6.根据权利要求1所述的具有强化学习功能的问答语料学习方法，其特征在于，

在所述通过模型A接收用户输入的若干问题并针对该若干问题分别输出相对应的答案之前，所述具有强化学习功能的问答语料学习方法还包括：

训练一个用于识别用户意图并反馈答案的所述模型A；

训练一个用于对所述模型A的输出进行打分的所述模型B。

7.根据权利要求1所述的具有强化学习功能的问答语料学习方法，其特征在于，

所述模型A的增量学习时间设置为每日零点至五点执行。

8.根据权利要求7所述的具有强化学习功能的问答语料学习方法，其特征在于，

所述模型A的增量学习时间设置为每日两点至四点执行。

9.根据权利要求1所述的具有强化学习功能的问答语料学习方法，其特征在于，

所述模型A的增量学习周期小于7天。