[发明专利]一种训练标记预测模型的方法和系统有效

专利信息
申请号: 202010072725.7 申请日: 2020-01-21
公开(公告)号: CN111274376B 公开(公告)日: 2023-06-02
发明(设计)人: 方军鹏 申请(专利权)人: 支付宝(杭州)信息技术有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/35
代理公司: 成都七星天知识产权代理有限公司 51253 代理人: 杨永梅
地址: 310000 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 训练 标记 预测 模型 方法 系统
【权利要求书】:

1.一种训练标记预测模型的方法,包括:

获取多个样本,所述多个样本合计包含P个不同的标记,P为大于等于2的整数;所述多个样本为用户问题文本,所述标记为所述用户问题文本对应的内容类型;

从所述P个不同的标记中任选两个标记,生成个标记对;

从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本;所述第一样本包含第一标记x,所述第二样本包含第二标记y;所述第一样本组成第一样本集,所述第二样本组成第二样本集;

计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征;所述新特征代表所述选取的样本对应的用户问题文本与各个中心样本对应的用户问题文本之间的相似度;

基于附加了所述新特征的所述选取的样本训练二分类器,得到用于预测所述标记对(x,y)中标记的二分类器,将个二分类器组成标记预测模型,所述标记预测模型为针对智能客服数据的分类模型。

2.如权利要求1所述的方法,所述方法还包括:

将待预测样本输入所述个二分类器,得到个分类结果;

确定所述个分类结果中不同预测标记各自的数量,将满足预设条件的预测标记作为所述待预测样本的标记。

3.如权利要求1所述的方法,所述计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征包括:

计算所述第一样本与所述第一样本集的中心的第一距离,所述第一样本与所述第二样本集的中心的第二距离,将所述第一距离和所述第二距离作为所述第一样本的新特征;

计算所述第二样本与所述第一样本集的中心的第三距离,所述第二样本和所述第二样本集的中心的第四距离,将所述第三距离和所述第四距离作为所述第二样本的新特征。

4.如权利要求1所述的方法,通过K-均值聚类算法确定所述第一样本集的K1个中心和所述第二样本集的K2个中心,K1和K2为大于等于1的整数。

5.如权利要求1所述的方法,所述第一样本包含所述第一标记x,不包含所述第二标记y;所述第二样本包含所述第二标记y,不包含所述第一标记x。

6.如权利要求1所述的方法,所述距离为欧氏距离。

7.如权利要求2所述的方法,所述确定所述个分类结果中不同预测标记各自的数量包括:

确定所述个二分类器的权重,所述权重与训练所述二分类器的训练数据量正相关;

求和输出为同一个预测标记的所述二分类器的权重,得到不同预测标记各自的数量。

8.如权利要求2所述的方法,所述P个不同的标记中含有虚拟标记,在确定所述待预测样本的标记时,将所述数量大于第一阈值的预测标记作为所述待预测样本的标记,所述第一阈值为所述个分类结果中所述虚拟标记的数量。

9.一种训练标记预测模型的系统,包括:

样本获取模块,用于获取多个样本,所述多个样本合计包含P个不同的标记,P为大于等于2的整数;所述多个样本为用户问题文本,所述标记为所述用户问题文本对应的内容类型;

标记对生成模块,用于从所述P个不同的标记中任选两个标记,生成个标记对;

样本选取模块,用于从所述多个样本中选取标记对(x,y)对应的第一样本和第二样本;所述第一样本包含第一标记x,所述第二样本包含第二标记y;所述第一样本组成第一样本集,所述第二样本组成第二样本集;

特征获取模块,用于计算选取的样本分别与两个样本集各自中心的距离,将所述距离作为所述选取的样本的新特征;所述新特征代表所述选取的样本对应的用户问题文本与各个中心样本对应的用户问题文本之间的相似度;

标记预测模型生成模块,用于基于附加了所述新特征的所述选取的样本训练二分类器,得到用于预测所述标记对(x,y)中标记的二分类器,将个二分类器组成标记预测模型,所述标记预测模型为针对智能客服数据的分类模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010072725.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top