[发明专利]一种基于用户画像聚类的用户类型自动化标注系统有效
申请号: | 201910232018.7 | 申请日: | 2019-03-26 |
公开(公告)号: | CN110020201B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 白琳;蔡承烨;李国斌;周新运;吴怀林;王建飞;赵敏 | 申请(专利权)人: | 中国科学院软件研究所;北京奥鹏远程教育中心有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62;G06Q30/02 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 画像 类型 自动化 标注 系统 | ||
本发明涉及一种基于用户画像聚类的用户类型自动化标注系统,包括用户画像数据采集模块、用户画像特征处理模块、用户画像聚类模块和用户类型标注模块;通过运行四个系统模块,该系统能为用户自动化的标出其所属的类型,并支持以配置文件的形式对需要标注的类型进行更新,极大的简化了用户类型标注的流程。在实际应用中,每个周期系统都会自动运行,并对全平台的用户进行自动化标注。其标注结果可应用于用户管理、数据挖掘、数据展示等相关工作,对平台的管理者与用户都具有积极的意义。
技术领域
本发明涉及一种基于用户画像聚类的用户类型自动化标注系统,属于计算机人工智能领域。
背景技术
在许多互联网平台中,根据平台的数据挖掘、运营管理、报表展示等工作需求,都需要对用户进行类型标注。通常其标注结果需要直观的体现出用户在平台中的活跃度或用户对平台中各功能模块的参与程度等用户相关的特征,为平台的功能模块管理、机器学习分类或回归等预测、提升用户界面体验等工作提供数据基础。目前,用户类型标注方法主要分为两类:完全人工类型标注方法以及半自动类型标注方法。
完全人工类型标注方法主要是使用现有的一些标注系统来手动去对用户类型进行标注,常用的标注系统如IEPY、DeepDive、BRAT等,标注系统会提供非常友好的标注界面,高亮相关的用户特征,有效提高标注人员的标注效率。但是,当需要标注的数据量达到一定规模时,完全人工类型标注方法需要投入较多的人力与时间,使得标注周期延长,标注成本高昂。而且,人工标注时的错误率也是一个难以避免的问题。
半自动类型标注方法的原理是只对部分数据进行标注,然后使用已标注的数据来训练机器学习分类模型(如SVM、LR、Random Forest、GBDT等),最后使用训练好的模型来对未标注的数据进行类型预测,并为其标注预测的类型。半自动类型标注方法能有效克服完全人工类型标注方法无法针对大规模数据进行标注问题,只需人工标注部分数据。但由于依赖少部分人工标注,当原有标注类型发生变化,需要增加新类型或删除原有类型,或者某一类型的标注规则发生改变,半自动类型标注方法需要重新对数据进行标注,再训练新的机器学习分类模型,由此增加了更新和维护的成本。
因此,原有方法存在以下局限:
(1)过于依赖人工标注数据,需要投入人力来进行数据标注工作,使得标注成本较高,并有一定的标注错误。
(2)难以更新和维护,当标注类型发生变化或标注规则发生改变时,需要投入较高的更新和维护成本来满足新的数据需求。
发明内容
本发明技术解决问题:克服传统用户类型标注系统过于依赖人工标注数据和标注类型难以更新及维护的问题,提供一种基于用户画像聚类的用户类型自动化标注系统,能为用户自动化的标出其所属的类型,并支持以配置文件的形式对需要标注的类型进行更新,极大的简化了用户类型标注的流程。
本发明提出的于用户画像聚类的用户类型自动化标注系统,设计了一套独立的模块来将用户画像信息转化为用户特征向量,并基于K-means聚类算法对用户特征向量进行聚类,此外,还针对聚类结果设计了相应的系统模块来将聚类结果映射到指定的用户类型中,从而自动化的为用户标注其所属类型。
本发明的技术解决方案:基于用户画像聚类的用户类型自动化标注系统,如图1所示,包含如下四个系统模块:
用户画像数据采集模块、用户画像特征处理模块、用户画像聚类模块和用户类型标注模块;通过上述四个系统模块的组合,可以完成本发明基于用户画像聚类的用户类型自动化标注系统。下面将分别描述用户画像数据采集模块、用户画像特征处理模块、用户画像聚类模块以及用户类型标注模块的基本内容。
1.用户画像数据采集模块
首先对相关概念进行解释说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所;北京奥鹏远程教育中心有限公司,未经中国科学院软件研究所;北京奥鹏远程教育中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910232018.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于历史素材的个性化推荐方法与系统
- 下一篇:气象数据展示系统