[发明专利]基于词语对狄利克雷过程的用户画像方法和系统有效
申请号: | 201910104306.4 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109783615B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 王小军;席耀一;唐永旺;王波;郭克坤;徐东;毛二松;陈诚;李福昌 | 申请(专利权)人: | 宋来伟 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/34 |
代理公司: | 郑州中科鼎佳专利代理事务所(特殊普通合伙) 41151 | 代理人: | 蔡佳宁 |
地址: | 022150 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词语 狄利克雷 过程 用户 画像 方法 系统 | ||
本发明公开了一种基于词语对狄利克雷过程的用户画像方法和系统,涉及数据挖掘技术领域,提取用户数据中的短文档,利用词语对狄利克雷过程获取短文档的关键词,该关键词用于建立用户画像。能够充分挖掘微博类数据生产平台产生用户数据中的碎片化内容信息,有效提升利用该类用户数据进行用户画像的准确率。本发明提供的词语对狄利克雷过程并不直接得到文档‑主题分布,而是打破文档之间的边界限制,从整个文档集中统计词语的共现信息,避免了单一文档如果是短文本时,其词语共现信息严重不足的问题。根据整个文档集的词语共现信息可以得到主题‑词语分布,然后可以利用贝叶斯公式得到每篇文档的文档‑主题分布。
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种通过用户数据中的短文档进行用户画像的方法及系统。
背景技术
用户画像(即User Profile或者Personas)又称用户角色,是一种通过用户数据勾画目标用户、联系用户需求与实际产品设计方向的工具性建模方法,用户画像方法产生的数字化模型也称为用户画像。微博是一种拥有海量用户的互联网社交工具,也是一种用户数据的数据生产平台,其用户每天可以产生大量的用户数据,微博等数据生产平台的用户数据可通过用户画像方法进行数字化建模,并用于把握用户群体核心诉求,分析用户群体情感喜好,提升个性化信息推荐性能和辅助决策等信息生产目标。
用户数据一般携带显式信息和隐含信息。以微博为例,其用户数据包括体现用户客观属性的账户信息、标记用户喜好的标签信息、用户日常发布或更新的内容信息等,其中账户信息、标签信息和内容信息的直接意思表达即为显式信息,如账户信息中的性别为“男”即标识该用户性别为“男”,在性别这个聚类维度上,该用户信息的坐标为“男”,显式信息不能直接标识但可以通过显式信息推导出的其他信息为隐含信息,如某用户的显式信息中未体现的该用户情绪、性格、喜好等。
现有技术中,利用用户数据进行用户画像方法有两种:1、直接提取用户数据显式信息中的词汇,对具体用户进行基于这些词汇的用户画像,如提取某个微博用户的账户信息和标签信息并进行聚合,直接将该聚合作为用户画像;2、通过提取用户数据显式信息中的词汇或者通过语义分析提取用户数据中隐含信息,对用户数据设定多个聚类维度,然后通过聚类算法对全部用户进行聚类,形成多个用户簇,以用户簇中心的虚拟用户的位置为其所在的用户簇进行用户画像,如使用微博用户账户信息中的地域、年龄、性别、在外就餐的频率等聚类维度对用户进行聚类分类。使用上述方法对微博类数据生产平台的用户数据进行用户画像至少存在以下问题:(1)可用的显式信息少,存在大量匿名用户、标签信息不全面等问题,如标签信息虽然反应了用户喜好,但是并不全面,也不能反应用户喜好的变化,用户画像的准确性差;(2)碎片化显式信息难以提取隐含信息,如微博中用户发布的内容信息虽然准确及时地捕捉用户的兴趣和变化,但其每条内容信息的文本局限于140字,难以通过常规语义分析建立合适的聚类维度进行聚类分类,无法用于用户画像。基于以上原因,微博类数据生产平台的用户数据在用户画像技术领域的应用效果很不理想。
在语义分析领域,以隐含狄利克雷分布(Latent Dirichlet Allocation,即LDA)为代表的的传统主题模型能够从语义层面提取文档中的关键词,主题模型是一种生成模型,认为每篇文档都对应有一个隐含主题分布,是若干隐含主题按一定比例的混合,而文档中的每个词语都是由相应的隐含主题抽样生成的。通过提取隐含主题分布中占比较大的隐含主题,即可从语义层面对文档进行分析。然后从隐含主题中提取占比较大的词语,即可认为是从语义层面提取关键词。在主题模型理论中,一般假设所有文档的隐含主题分布均具有一个共同的基分布的先验,通过后验推理可以得到每篇文档的隐含主题分布。以经典的主题模型LDA为例,LDA假设所有文档的主题分布的先验均满足相同的狄利克雷分布,而狄利克雷分布需要预先指定主题数目,当指定数目与实际数目相差较远时,传统主题模型的性能会受到较大影响。同时,对于某一文档集,利用传统的主题模型提取关键词时,一般先要抽样生成文档集的文档-主题分布,然后得到每一个文档的主题-词语分布。两类分布都是依赖于词语共现信息得到,当每篇文档的文本长度较短时,词语共现信息不足,影响了该类方法的性能。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宋来伟,未经宋来伟许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910104306.4/2.html,转载请声明来源钻瓜专利网。