[发明专利]一种基于LDA主题模型的电信用户相似度发现方法有效
申请号: | 201710756540.6 | 申请日: | 2017-08-29 |
公开(公告)号: | CN107613520B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 解绍词;吴新凯;徐光侠;刘宴兵;程金伟 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06Q50/30 | 分类号: | G06Q50/30;H04L12/24 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lda 主题 模型 电信用户 相似 发现 方法 | ||
1.一种基于LDA主题模型的电信用户相似度发现方法,其特征在于,包括以下步骤:
S1:采集用户信息;
S2:对S1中采集的用户信息进行预处理;
S3:对S2中预处理信息中的基本属性、用户通话记录和用户短信记录分别进行相似度计算;
用户基本属性相似度计算公式如下:
其中,代表用户a的N维特征向量,代表用户b的N维特征向量,和分别代表向量的长度,为用户基本属性的相似性,值越大,则用户基本属性中的相似特征就越多;
用户通话记录和用户短信记录相似度的计算公式如下:
其中,P(C,S)为用户通话记录和用户短信记录相似度,c代表通话时长,f代表通话频率,s代表短信次数;cij表示用户i向用户j发起通话的时长,cji表示用户j向用户i发起通话的时长,ci代表用户i与相邻用户的通话总时长,cj代表用户j与相邻用户的通话总时长;fij表示用户i向用户j发起通话的频率,fji表示用户j向用户i发起通话的频率,fi代表用户i与相邻用户的通话总频率,fj代表用户j与相邻用户的通话总频率;sij表示用户i向用户j发起短信的次数,sji表示用户j向用户i发起短信的次数,si代表用户i与相邻用户的短信总次数,sj代表用户j与相邻用户的短信总次数;
S4:对S2中预处理信息中的用户在一天内所连基站位置信息,建立LDA模型,计算该信息相似度,步骤为:
S41:建模前的预设;
S42:构建LDA模型;包括以下步骤:
S421:选择文档i的主题概率分布为其中表示第i篇文档矩阵,Dir表示狄利克雷分布,i属于{1,...M},M是文档个数,是每篇文档的主题分布的先验分布Dirichlet分布的参数,也称超参数;
S422:选择主题k的词项概率分布为其中表示第k个主题矩阵,Dir表示狄利克雷分布,k属于{1,...K},K是主题个数,是每个主题的词分布的先验分布Dirichlet分布的参数,也称超参数;
S423:对于文档中的每个单词wi,j,选择一个主题zi,j~Multinomial(θi)服从多项式分布;选择一个词项服从多项式分布;
其中,wi,j代表第i个文档下第j个词项,zi,j表示第i个文档下第j个词项的主题编号,θi表示第i篇文档,表示主题zi,j的分布;
S43:利用吉布斯抽样方法进行参数估计,通过计算主题概率分布和词概率分布,计算文档相似度,公式如下:
其中,d1、d2代表两个文档,i表示第i个主题编号,代表文档d1取到主题i的概率,代表文档d2取到主题i的概率,K表示第m篇文档中主题总数;
S5:综合S3和S4的相识度计算,推测相互关系;综合相似度的计算公式如下:
其中,u1、u2代表用户1和用户2;η1表示利用基本属性计算的权值,设置η1=0.1;η2表示利用通话记录和短信记录计算的权值,设置η2=0.3;η3代表利用用户一天中连接基站位置信息计算的权值,设置η3=0.6;
S6:以S5中推测出的相互关系进行聚类。
2.根据权利要求1所述的一种基于LDA主题模型的电信用户相似度发现方法,其特征在于,所述S2中对S1中采集的用户信息进行预处理的内容,包括数据清理、数据集成、数据变换、数据规约4个步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710756540.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双工位自动切割机
- 下一篇:一种45度切割机