[发明专利]一种基于行为分析的微博话题表示模型生成方法及装置在审
申请号: | 201811315209.1 | 申请日: | 2018-11-06 |
公开(公告)号: | CN109558546A | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 韩伟红;李树栋;黄子中;方滨兴;贾焰;王乐;周斌;殷丽华;田志宏 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;宋静娜 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 行为分析 话题 表示模型 用户文档 微博 集合 综合权重 权重 权重计算 文档结合 用户发布 用户行为 准确度 转发 外部 评论 分析 发现 | ||
1.一种基于行为分析的微博话题表示模型生成方法,包括如下步骤:
步骤S1,将微博用户发布、转发及其评论的文档结合在一起生成用户文档集合;
步骤S2,对生成的用户文档集合采用LDA模型生成话题模型;
步骤S3,对用户文档集合中每个话题的每个词项,计算基于行为分析的词项内部权重;
步骤S4,对用户文档集合中的每个词项,计算基于行为分析的词项外部权重;
步骤S5,根据步骤S3与步骤S4得到的基于行为分析的词项内部权重与词项外部权重计算每个话题下每个词项的基于行为分析的综合权重;
步骤S6,根据获得的每个话题下每个词项的基于行为分析的综合权重对每个话题计算基于行为分析的话题表示模型。
2.如权利要求1所述的一种基于行为分析的微博话题表示模型生成方法,其特征在于,于步骤S6后,还包括如下步骤:
步骤S7,根据步骤S6获得的每个话题的基于行为分析的话题表示模型以及步骤S2采用LDA得出的话题模型对每个话题计算基于行为分析的LDA话题表示,得到最终的话题表示模型。
3.如权利要求2所述的一种基于行为分析的微博话题表示模型生成方法,其特征在于,步骤S2进一步包括:
步骤S200,对用户文档集合,采用LDA模型生成文档-话题模型和话题-词项模型ρ(θ)LDA;
步骤S201,对用户文档集合中的每一个文档,从LDA模型生成的文档--话题中选取概率最高的话题作为文档话题。
4.如权利要求3所述的一种基于行为分析的微博话题表示模型生成方法,其特征在于,步骤S3进一步包括:
步骤S300,根据行为类型分别计算每种行为的词项的内部权重H(w,θ,b)inside;
步骤S301,根据每种行为的词项的内部权重H(w,θ,b)inside计算基于行为分析的词项的内部权重H(w,θ)inside。
5.如权利要求4所述的一种基于行为分析的微博话题表示模型生成方法,其特征在于,所述基于行为分析的词项内部权重的计算如下:
H(w,θ)inside=σ*H(w,θ,b1)inside+μ*H(w,θ,b2)inside+τ*H(w,θ,b3)inside
其中,H(w,θ,b)inside表示词项w在话题θ下,行为类型b中的行为内部权重,D(θ,b)表示在话题θ,行为b下的文档集合,TFwi是词项w在文档Di中的出现频率,TFw是词项w在行为文档集合D(θ,b)下所有文档的频率之和,σ,μ,τ表示不同行为的权重因子。
6.如权利要求4所述的一种基于行为分析的微博话题表示模型生成方法,其特征在于,步骤S4进一步包括:
步骤S400,根据行为类型分别计算每种行为的词项的外部权重H(w,b)outside;
步骤S401,根据每种行为的词项的外部权重H(w,b)outside计算基于行为分析的词项的外部权重H(w)outside。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811315209.1/1.html,转载请声明来源钻瓜专利网。