[发明专利]基于词语对狄利克雷过程的用户画像方法和系统有效
申请号: | 201910104306.4 | 申请日: | 2019-01-25 |
公开(公告)号: | CN109783615B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 王小军;席耀一;唐永旺;王波;郭克坤;徐东;毛二松;陈诚;李福昌 | 申请(专利权)人: | 宋来伟 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/34 |
代理公司: | 郑州中科鼎佳专利代理事务所(特殊普通合伙) 41151 | 代理人: | 蔡佳宁 |
地址: | 022150 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词语 狄利克雷 过程 用户 画像 方法 系统 | ||
1.一种基于词语对狄利克雷过程的用户画像方法,其特征在于:提取用户数据中的短文档,利用词语对狄利克雷过程获取短文档的关键词,该关键词用于建立用户画像;
其中,利用词语对狄利克雷过程获取短文档的关键词的步骤包括:
将所述用户数据中的多个短文档组成一短文档集,选取一个对称狄利克雷分布Dir(β)作为一隐含主题z在该短文档集中的基分布;
标记该组文档数据中的若干词语对,其中,每一个词语对标记为bj,对每个bj,从该组文档数据的全局测度G中抽取隐含主题θj,使得由θj生成bj所包含的两个词语wj1和wj2;通过Gibbs Sampling方法迭代获得第j个词语对bj与隐含主题z相关的条件概率分布以及该组文档数据在该词语对标记方式下的隐含主题的数目K,所述各条件概率分布由下式(1)迭代获得,
其中,上标中的表示不包含相应变量的计数,表示由隐含主题z生成的不包括第j个词语对的其他全部词语对的数目,α是基分布的聚焦参数,B表示所有词语对组成的词语对集合,由如下式2迭代获得,
其中,V为不同词语的个数即特征数目,即词语词典大小,表示由隐含主题z生成的不包含词语wji的特征v的数目,表示由隐含主题z生成的不包含词语wji的特征数目,β为满足对称狄利克雷分布的主题-词语分布的狄利克雷先验参数,|B|为文档集中的词语对数目;
根据下式(3)获得每一隐含主题zk中各词语概率分布p(w|zk),
其中,k∈K,为由隐含主题z生成的特征w的数目;
根据下式(4)(5)(6)(7)获得每一隐含主题zk在该短文档集一个短文档s内的概率分布p(zk|s),
其中,为由隐含主题zk生成的词语对数目,|B|s表示短文档s包含的词语对数目,wi和wj为每一词语对b包含的词语,ms(b)为词语对b在短文档s中出现的次数;
将词语词典中V个不同词语在K个隐含主题中的概率分布p(w|zk)组成K行V列的主题-词语分布矩阵K*V,将K个隐含主题在该短文档集各短文档中的概率分布p(zk|s)分别求和并组成1行K列的用户-主题分布矩阵1*K,将用户-主题分布矩阵和主题-词语分布矩阵进行相乘后,得到一个1行V列的用户-词语矩阵;根据该用户-词语矩阵中元素值的大小选择对应的词语作为该用户的关键词。
2.根据权利要求1所述的基于词语对狄利克雷过程的用户画像方法,其特征在于,利用词语对狄利克雷过程获取短文档的关键词的方法包括:获取用户数据中的所有短文档,并组成短文档集;利用词语对狄利克雷过程建立该短文档集的短文档集模型,短文档集模型中包括文档-主题分布矩阵和主题-词汇分布矩阵;将全部文档-主题分布矩阵求和获得用户-主题分布矩阵;将用户-主题分布矩阵与主题-词汇矩阵相乘获得用户-词汇分布矩阵;选取用户-词汇分布矩阵中的元素对应的词汇作为关键词。
3.根根据权利要求2所述的基于词语对狄利克雷过程的用户画像方法,其特征在于,关键词只包含名词和/或形容词。
4.根据权利要求1至3任一项所述的基于词语对狄利克雷过程的用户画像方法,其特征在于,通过关键词建立用户画像的方法包含:提取并使用用户数据中的标签信息对关键词进行数据清洗。
5.根据权利要求4所述的基于词语对狄利克雷过程的用户画像方法,其特征在于,设置用户画像中标签信息的信度大于关键词。
6.一种基于词语对狄利克雷过程的用户画像系统,其特征在于:用于用户画像系统的数据,由权利要求1至5任一项的方法得到,数据包括关健词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宋来伟,未经宋来伟许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910104306.4/1.html,转载请声明来源钻瓜专利网。