[发明专利]一种用户属性预测模型构建方法和装置有效
申请号: | 201710400378.4 | 申请日: | 2017-05-31 |
公开(公告)号: | CN107291840B | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 谢忠玉;鲍昕平;蔡龙军 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06Q10/04;G06Q50/00 |
代理公司: | 11319 北京润泽恒知识产权代理有限公司 | 代理人: | 莎日娜 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 属性 预测 模型 构建 方法 装置 | ||
本发明实施例提供了一种用户属性预测模型构建方法和装置,所述方法包括:获取源样本集合原始特征和目标样本集合原始特征;生成源样本集合扩展特征;采用源样本集合原始特征及源样本集合扩展特征及所归属的用户属性构建第一用户属性预测模型和第二用户属性预测模型;统计第一用户属性预测模型和第二用户属性预测模型对目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度和第二匹配度;分别配置第一用户属性预测模型和第二用户属性预测模型的校正权重;根据第一用户属性预测模型及配置的校正权重及第二用户属性预测模型及配置的校正权重构建目标用户属性预测模型。根据本发明实现了跨领域的标注数据迁移,节省了人力物力。
技术领域
本发明涉及模型构建领域,特别是涉及一种用户属性预测模型构建方法,以及,一种用户属性预测模型构建装置。
背景技术
目前,预测模型在各个领域得到广泛的应用。针对于社交网络网站、论坛网站、新闻网站等包含文本内容的文本平台的用户属性预测,可以将用户在文本平台发表的评论和文章,提取其特征向量并输入至用户属性预测模型,即可预测该用户的用户年龄、性别等用户属性。
在构建上述的用户属性预测模型的过程中,通常是将用户发表的评论和文章收集作为文本数据样本,并将评论和文章分成多个文字、词汇、短语等的文本单元,并根据文本单元所表达的意义对文本单元进行用户属性的标注。然后将文本单元的特征向量和所标注的用户属性作为训练样本对某个基础分类模型进行机器训练,从而得到针对某个文本平台的用户属性预测模型。
发明人在实现本发明的过程中发现,现有技术至少存在以下问题:不同的文本平台中,用户通常采用不同形式的文字、词汇、短语表示相同或相似的意义,从而造成了针对一个文本平台标注的数据无法应用于另外一个文本平台,而需要重新对另外一个文本平台的文本单元进行标注,耗费大量的人力物力。即,采用用户属性预测模型进行跨平台的文本标注时,目前的用户属性预测模型构建方法存在着耗费大量人力物力的问题。
发明内容
本发明实施例针对所要解决的技术问题提供了一种用户属性预测模型构建方法,以及,一种用户属性预测模型构建装置。
为了解决上述问题,本发明提供了一种用户属性预测模型构建方法,所述方法包括:
分别从源样本集合和目标样本集合中,获取源样本集合原始特征和目标样本集合原始特征;
根据所述源样本集合原始特征和所述目标样本集合原始特征的对应关系,生成与所述源样本集合原始特征对应的源样本集合扩展特征;所述源样本集合原始特征和所述源样本集合扩展特征归属于相同的用户属性;
采用所述源样本集合原始特征及所归属的用户属性,构建第一用户属性预测模型,以及,采用所述源样本集合扩展特征和所归属的用户属性,构建第二用户属性预测模型;
统计所述第一用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第一匹配度,以及,统计所述第二用户属性预测模型对输入的目标样本集合原始特征的用户属性预测结果与实际用户属性的第二匹配度;
采用所述第一匹配度和所述第二匹配度,分别配置所述第一用户属性预测模型和所述第二用户属性预测模型的校正权重;
根据所述第一用户属性预测模型及配置的校正权重,及所述第二用户属性预测模型及配置的校正权重,构建目标用户属性预测模型。
可选地,所述源样本集合包括第一文本平台上的多个文本样本,所述目标样本集合包括第二文本平台上的多个文本样本。
可选地,所述方法还包括:
在所述源样本集合和所述目标样本集合中查找相同的特征作为共同特征,并确定所述共同特征归属的用户属性;
采用所述共同特征和所归属的用户属性,构建第三用户属性预测模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710400378.4/2.html,转载请声明来源钻瓜专利网。