[发明专利]一种基于行为分析的微博话题表示模型生成方法及装置在审
申请号: | 201811315209.1 | 申请日: | 2018-11-06 |
公开(公告)号: | CN109558546A | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 韩伟红;李树栋;黄子中;方滨兴;贾焰;王乐;周斌;殷丽华;田志宏 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;宋静娜 |
地址: | 510000 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 行为分析 话题 表示模型 用户文档 微博 集合 综合权重 权重 权重计算 文档结合 用户发布 用户行为 准确度 转发 外部 评论 分析 发现 | ||
本发明一种基于行为分析的微博话题表示模型生成方法及装置,该方法包括:步骤S1,将微博用户发布、转发及评论的文档结合在一起生成用户文档集合;步骤S2,对用户文档集合采用LDA模型生成话题模型;步骤S3,对每个话题的每个词项,计算基于行为分析的词项内部权重;步骤S4,对用户文档集合中的每个词项,计算基于行为分析的词项外部权重;步骤S5,根据得到的权重计算每个话题下每个词项的基于行为分析的综合权重;步骤S6,根据获得的综合权重对每个话题计算基于行为分析的话题表示模型,本发明通过于话题模型中结合用户行为因素,可提高后续使用话题模型进行话题发现、演化分析等的准确度。
技术领域
本发明涉及微博话题表示模型技术领域,特别是涉及一种基于行为分析的微博话题表示模型生成方法及装置。
背景技术
当前,互联网已逐步演变为无处不在的信息传播和计算平台,由此诞生的社交网络服务应用得到了快速发展,变得越来越流行。越来越多的人使用社交平台讨论内容、发表意见、分享信息等,这就导致每天产生数以亿计的信息,如何在这样的数据规模下快速准确的发现新话题,对信息推荐、舆情控制等方面有着至关重要的作用。而话题发现的基础研究任务之一就是如何表示话题,任何的话题发现方法都是建立在某一特定话题表示模型的基础之上,同一话题发现方法在不同的话题表示模型下的效果很可能大相径庭,所以针对话题表示模型的研究显得尤为重要。
话题模型自出现以来就成为话题发现、多文档总结、词义识别与消歧、情感分析、信息检索等多个领域的主流技术,这些领域通过话题模型训练获取话题,为了使话题更容易被用户理解,如何选取代表性词项集合表示话题的问题值得更多关注。
话题在形式上是在词项上的多项式分布,词项在每个话题中存在一个确切数值的概率,可以通过最高概率的几个或十几个词项组成的集合表示话题。举个简单的例子,下表是话题“体育”、“新闻”和“娱乐”在词项上的分布,如果选取三个最高概率的词项组成的集合表示话题,则“体育”话题就可以用{冠军、比赛、篮球}代表,而“新闻”话题用{总统、演唱会、冠军}代表,“娱乐”用{演唱会、歌星、冠军}代表。
表1.话题在词项上的分布
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811315209.1/2.html,转载请声明来源钻瓜专利网。