[发明专利]一种微博团体的发现方法及装置在审
申请号: | 201510284124.1 | 申请日: | 2015-05-28 |
公开(公告)号: | CN104850647A | 公开(公告)日: | 2015-08-19 |
发明(设计)人: | 李扬曦;杜翠兰;佟玲玲;李睿;王晶;刘洋;查奇文;秦韬;付戈 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 梁军 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 团体 发现 方法 装置 | ||
技术领域
本发明涉及数据挖掘领域,特别是涉及一种微博团体的发现方法及装置。
背景技术
近年来,以微博为代表的社交网络正成为人们日常交流、获取资讯的新途径,在生活中扮演着越来越重要的角色。与此同时,微博也由于其信息扩散速度快、扩散范围广等特点,成为各微博运营商、互联网公司、广告主进行内容推荐和广告投放的重要平台。同时,在学术界和工业界,针对微博用户行为、网络结构的研究和应用也在蓬勃发展。
传统的内容推荐、广告投放通常采用无差别的方式,即不考虑用户之间影响力和兴趣的差异,直接将热门的信息和广告等推送给所有用户,这样的做法未考虑用户之间的差异,投放和推送的效果往往不尽如人意。近年来,出现了针对用户群体的精准推荐技术,即利用用户之间的跟随/粉丝关系构建用户网络,将热点内容推送至网络中影响力较大的用户(如粉丝数较多的用户),利用这些用户来影响其他用户,从而实现信息的扩散和传播,提高了内容推荐和广告推送的有效性。
然而,这类方法存在着局限性:这些方法的本质是以用户之间的跟随/粉丝关系来构建用户关系网络,而跟随/粉丝关系往往受到“名人效应”或“僵尸粉丝”的影响,因此表面的跟随/粉丝关系并不能说明用户之间存在同样的兴趣爱好。也就是说,通过这类方法构建的跟随/粉丝关系网络不等价于用户兴趣网络,这就造成待推荐的信息内容主题和用户网络之间的不匹配,无法达到最好的内容推荐和推送效果;同时,部分具有相同兴趣的用户之间由于并不具有跟随/粉丝关系,会被这类方法所遗漏,从而造成内容推荐、广告营销不能达到预期的效果。
发明内容
本发明提供一种微博团体的发现方法及装置,用以解决现有技术中,仅通过跟随/粉丝关系构建用户关系网络,然而这类方法构建的关系网络不等价于用户兴趣网络,这就造成待推荐的信息内容主题和用户网络之间的不匹配,无法达到最好的内容推荐和推送效果的问题。
为解决上述技术问题,一方面,本发明提供一种微博团体的发现方法,包括:根据微博用户的元信息及微博内容,构建相互独立的特征信息词典;从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量;采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。
进一步,构建特征信息词典包括:按照如下公式计算当前语料库中待生成词典的各词语的IDF值,所述IDF值的计算公式为:其中,N表示当前整个语料库中的信息总条数,nd表示当前词语出现过的信息条数;保留计算得到的IDF值超过预定IDF值的词语,并将其添加到所述当前语料库对应的词典中,以构建所述特征信息词典。
进一步,从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量,包括:从数据集中统计当前用户的数值型特征;将用户的元信息及微博内容对应的词语分别映射到对应的词典上,并使用TFIDF值加权,其中,分词W的TFIDF值计算方式如下:其中,cw表示词语w出现的次数,c表示当前整个语料库总的词语个数;将所述数值型特征和得到的所述TFIDF值进行拼接,以得到用户的兴趣特征向量。
进一步,采用无监督学习方式从所述兴趣特征向量中确定用户团体信息之后,还包括:通过预定行为的权重值构建用户互动关系网络,其中,所述预定行为包括:跟随关系行为、粉丝关系行为、转发关系行为;在所述用户互动关系网络中,通过网络结构分析的方法对所述用户团体信息中的用户进行角色识别,以确定整个团体中每个用户的重要值;根据所述每个用户的重要值确定微博扩散策略。
进一步,对所述用户团体信息中的用户进行角色识别,以确定整个团体中每个用户的重要值包括:计算整个团体中每个用户节点的中心性,其中,所述中心性包括:浓度中心性、亲近中心性和居间中心性;通过迭代的方式确定所述每个用户节点的加权PageRank值;根据所述中心性和所述加权PageRank值确定用户的重要值。
进一步,通过如下公式确定用户的重要程度:s(a)=αCdegree(a)+βCcloseness(a)+γCbetweenness(a)+δwPR(a);其中,Cdegree(a)为用户的频度中心性,Ccloseness(a)为用户的亲近中心性,Cbetweenness(a)为用户的居间中心性,wPR(a)为一个时间窗内用户的活跃值,α、β、γ和δ为调节各权重的系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510284124.1/2.html,转载请声明来源钻瓜专利网。