[发明专利]一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法有效
申请号: | 201910416747.8 | 申请日: | 2019-05-20 |
公开(公告)号: | CN110149556B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 顾军华;李晓雪;杨亮;谢志坚;田泽培;陈博;佘士耀;张亚娟 | 申请(专利权)人: | 河北工业大学 |
主分类号: | H04N21/442 | 分类号: | H04N21/442;H04N21/466;H04N21/45 |
代理公司: | 天津翰林知识产权代理事务所(普通合伙) 12210 | 代理人: | 王瑞 |
地址: | 300130 天津市红桥区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tdc lda 模型 iptv 用户 行为 模式 挖掘 方法 | ||
1.一种基于TDC-LDA模型的IPTV用户行为模式挖掘方法,其特征在于该方法包括以下步骤:
步骤1、建立TDC-LDA模型:在TDC-LDA模型中,每个用户对应一个描述该用户观看兴趣主题、观看时段与观看时长的行为模式分布,具体表现为在不同时段所呈现出的兴趣主题分布,且兴趣主题分布受观看时长影响;行为模式具体是指用户选择在哪个时段观看哪种类型的节目以及其观看时长,其中用户的观看时长体现了其对此类型节目的喜爱程度;
在TDC-LDA模型中,有K个兴趣主题,Vw个不同的IPTV节目,则兴趣主题对应的IPTV节目的多项式分布描述成K×Vw维的兴趣主题-节目矩阵Φ,是节目vw属于兴趣主题k的概率;TDC-LDA模型中有L个时段,Vt个不同的时间点,时段对应的时间点的多项式分布描述成L×Vt维的时段-时间点矩阵Ψ,是时间点vt属于时段l的概率;
对于用户m,把其由兴趣主题和时段构成的K×L维的行为模式矩阵分解成K·L维的向量为用户m的行为模式分布;中第z项代表用户m在zm,n,1时段选择兴趣主题zm,n,2这个行为并且观看时长为dm,n的概率;其中zm,n,1和zm,n,2由式(1)求得:
式(1)中,zm,n为用户m的第n个收视记录的行为模式,zm,n,1为用户m的第n个收视记录的时段,zm,n,2为用户m的第n个收视记录的兴趣主题,mod函数是一个求余函数;
收视记录由观看的IPTV节目、观看的时间点和观看时长组成,则用户m的第n个收视记录包括wm,n、tm,n和dm,n;其中,wm,n表示用户m的第n个收视记录中观看的IPTV节目,tm,n表示用户m的第n个收视记录的观看时间点,dm,n表示用户m的第n个收视记录中的观看时长;
用户m采用TDC-LDA模型生成收视记录的过程如下:
(1)根据Dirichlet分布选择用户m的行为模式分布其中m∈{1,...,M},是参数为α的Dirichlet分布;
(2)根据Dirichlet分布选择兴趣主题k的节目分布其中k∈{1,...,K},是参数为β的Dirichlet分布;
(3)根据Dirichlet分布选择时段l的时间点分布其中l∈{1,...,L},是参数为γ的Dirichlet分布;
(4)生成用户m的第n个收视记录,收视记录由观看的IPTV节目、观看时间点和观看时长组成,其中n∈{1,...,Nm};
a、从该用户的行为模式分布中,选择一个行为模式
b、根据选择的行为模式zm,n对应的兴趣主题找到这个兴趣主题生成IPTV节目的多项式分布,然后根据兴趣主题对应的节目分布生成IPTV节目
c、根据选择的行为模式zm,n对应的时段找到这个时段生成时间点的多项式分布,然后根据时段对应的时间点分布生成时间点
d、根据行为模式zm,n对应的兴趣主题,生成观看时长
步骤2、根据步骤1得到的TDC-LDA模型,进行模型拟合,得到TDC-LDA模型的Gibbs采样公式;
采用Gibbs采样对TDC-LDA模型中的zm,n进行推断;在每次采样迭代中,根据对zm,n采样;表示用户m的除第n个收视记录以外的其他收视记录的行为模式;条件概率可以由联合概率通过贝叶斯定理求出,如式(2)所示:
式(2)中,是IPTV节目wm,n被赋予兴趣主题zm,n,2的次数,是时间点tm,n被赋予时段zm,n,1的次数,表示用户m被赋予行为模式zm,n的次数,Vw代表所有IPTV节目总数,Vt代表所有时间点总数,α为行为模式分布的Dirichlet先验,β为兴趣主题分布的Dirichlet先验,γ为时段分布的Dirichlet先验,λ为指数分布的参数;βw为每个IPTV节目w对应兴趣主题分布的Dirichlet先验;γt为每个时间点t对应时段分布的Dirichlet先验;用户m的第n个收视记录的行为模式对应行为模式分布的Dirichlet先验;αi为第i个行为模式对应的行为模式分布的Dirichlet先验;是用户m的第n个收视记录的兴趣主题对应指数分布的参数;是IPTV节目vw被赋予兴趣主题zm,n,2的次数,是时间点vt被赋予时段zm,n,1的次数,是用户m被赋予行为模式i的次数;
每一次迭代用式(3)来更新λ:
是属于当前兴趣主题zm,n,2的所有节目观看时长的均值;
TDC-LDA模型中,用户m的行为模式分布兴趣主题k的节目分布和时段l的时间点分布是以Dirichlet分布为先验分布的多项式分布;因为Dirichlet分布与多项式分布为共轭分布,因此每一个用户对应的行为模式矩阵Θ、兴趣主题对应的IPTV节目矩阵Φ、时段对应的时间点矩阵Ψ作为后验分布可以用Dirichlet分布的期望进行推导得到,如式(4)-(6)所示:
式(4)-(6)中,θm,i代表用户m具有行为模式i的概率,代表IPTV节目vw属于兴趣主题k的概率,表示时间点vt属于时段l的概率,是IPTV节目vw被赋予兴趣主题k的次数,是时间点vt被赋予时段l的次数;
步骤3、对用户收视记录数据进行处理,提取用户的观看节目名称、观看时间点和观看时长信息,得到每个用户的每个收视记录;
步骤4、对步骤3得到的每个用户的每个收视记录的行为模式进行初始化;然后通过Gibbs采样公式对每个用户的每个收视记录的行为模式重新采样,直至算法收敛稳定;最后根据式(4)-(6),分别计算得到用户-行为模式矩阵Θ、兴趣主题-节目矩阵Φ和时段-时间点矩阵Ψ;
步骤5、对步骤4得到的三个矩阵进行分析,得到兴趣主题表示的节目类型和每个时段的具体时间区间,进而挖掘到每个用户在不同时段的兴趣主题分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工业大学,未经河北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910416747.8/1.html,转载请声明来源钻瓜专利网。