[发明专利]一种基于用户画像聚类的用户类型自动化标注系统有效
申请号: | 201910232018.7 | 申请日: | 2019-03-26 |
公开(公告)号: | CN110020201B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 白琳;蔡承烨;李国斌;周新运;吴怀林;王建飞;赵敏 | 申请(专利权)人: | 中国科学院软件研究所;北京奥鹏远程教育中心有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62;G06Q30/02 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 画像 类型 自动化 标注 系统 | ||
1.一种基于用户画像聚类的用户类型自动化标注系统,其特征在于:包括,用户画像数据采集模块、用户画像特征处理模块、用户画像聚类模块和用户类型标注模块;
用户画像数据采集模块:根据配置文件的信息,从平台数据库中读取原始数据,并对原始数据进行用户画像维度标注以及用户画像维度特征计算,最终生成用户画像数据,用户画像数据将会输入到用户画像特征处理模块中;
用户画像特征处理模块:以用户画像数据为输入,为用户画像数据进行维度划分,然后分别针对每个维度进行特征清洗并修正异常数据,修正后的数据经过特征归一化以及特征组合后生成当前维度的特征值,最后将各维度的特征组合生成用户画像特征向量;
用户画像聚类模块:读取用户画像特征处理模块生成的用户画像特征向量,根据配置文件的信息初始化聚类模型,然后初始化各个类别的聚类中心,通过对损失函数的最小化操作,不断计算并更新各个类别的聚类中心,达到指定的循环次数或目标函数最小化到指定值之后,输出各个类别的聚类中心结果数据以及每一个用户的聚类结果数据;
用户类型标注模块:获取聚类中心结果数据,将聚类中心结果数据进行中心值归一化,并组织成聚类中心集合池,然后从配置文件中按照格式解析出用户类型-匹配规则优先级队列,并从该队列中优先级最高的用户类型开始,在聚类中心集合池中进行用户类型匹配,若匹配成功则为用户画像聚类结果中属于标签值属于当前聚类中心的用户标注该用户类型,直至中心集合池为空或优先级队列为空,最终产生用户类型标注结果。
2.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注系统,其特征在于:所述用户画像数据采集模块实现如下:
(1)配置文件解析:配置文件以json的格式存储用户画像特征名称以及与特征名称相应的数据库字段、特征所属维度以及特征计算规则,读取配置文件,并对配置文件的内容进行解析,处理并生成用户画像特征队列;
(2)获取用户画像特征名称:用户画像特征队列进行出队操作,获取当前待处理的用户画像特征名称;
(3)用户画像维度标注:根据配置信息中与当前用户画像特征名称相应的用户画像维度,将当前用户画像名称存储到用户画像维度字典中,维度字典的数据结构为(key:用户画像维度,value:用户画像特征名称);
(4)原始数据读取:根据配置信息中与当前用户画像特征名称相应的数据库字段名,从数据库中读取相关的原始数据;
(5)用户画像维度特征计算:根据配置信息中与当前用户画像特征名称相应的特征计算规则,使用从数据库读入的原始数据来计算用户画像特征值,并将用户画像特征名称与用户画像特征值存入用户画像特征数组中,数组中每一个元素的数据结构为(用户画像特征名称,用户画像特征值);
(6)逻辑判断:判断用户画像特征队列是否为空,若队列不为空则跳转到步骤2,若队列为空则跳转到步骤7;
(7)输出用户画像数据:将用户画像维度字典与用户画像特征数组中的数据组合成用户画像数据并输出,用户画像数据的格式为(用户画像特征名称,用户画像维度,用户画像特征值)。
3.根据权利要求1所述的一种基于用户画像聚类的用户类型自动化标注系统,其特征在于:所述用户画像特征处理模块实现如下:
(1)读入用户画像数据:数据加载过程会读取用户画像数据中的数据,并构造符合用户画像特征处理模块格式的数据,基本数据格式为:每一个用户的用户画像数据包含n个用户画像维度,每个用户画像维度包含若干个用户画像维度特征数据,以二维变长数组的数据结构存储;
(2)维度划分:对用户画像数据按照用户画像维度进行划分,将不同用户在相同用户画像维度下的用户画像维度特征数据进行拼接,对于每一个用户画像维度,产生一个m×k的用户画像维度二维数组,包含m个用户,每行表示1个用户的k个用户画像维度特征数据;
(3)用户画像维度分值计算:分别基于每一个用户画像维度二维数组,计算当前用户画像维度下的用户画像维度分值;
对于每一个用户画像维度,其用户画像维度分值的计算过程如步骤(1)到步骤(3)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所;北京奥鹏远程教育中心有限公司,未经中国科学院软件研究所;北京奥鹏远程教育中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910232018.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于历史素材的个性化推荐方法与系统
- 下一篇:气象数据展示系统