[发明专利]一种微博团体的发现方法及装置在审
申请号: | 201510284124.1 | 申请日: | 2015-05-28 |
公开(公告)号: | CN104850647A | 公开(公告)日: | 2015-08-19 |
发明(设计)人: | 李扬曦;杜翠兰;佟玲玲;李睿;王晶;刘洋;查奇文;秦韬;付戈 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 梁军 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 团体 发现 方法 装置 | ||
1.一种微博团体的发现方法,其特征在于,包括:
根据微博用户的元信息及微博内容,构建相互独立的特征信息词典;
从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量;
采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。
2.如权利要求1所述的发现方法,其特征在于,构建特征信息词典包括:
按照如下公式计算当前语料库中待生成词典的各词语的IDF值,所述IDF值的计算公式为:其中,N表示当前整个语料库中的信息总条数,nd表示当前词语出现过的信息条数;
保留计算得到的IDF值超过预定IDF值的词语,并将其添加到所述当前语料库对应的词典中,以构建所述特征信息词典。
3.如权利要求2所述的发现方法,其特征在于,从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量,包括:
从数据集中统计当前用户的数值型特征;
将用户的元信息及微博内容对应的词语分别映射到对应的词典上,并使用TFIDF值加权,其中,分词W的TFIDF值计算方式如下:其中,cw表示词语w出现的次数,c表示当前整个语料库总的词语个数;
将所述数值型特征和得到的所述TFIDF值进行拼接,以得到用户的兴趣特征向量。
4.如权利要求1至3中任一项所述的发现方法,其特征在于,采用无监督学习方式从所述兴趣特征向量中确定用户团体信息之后,还包括:
通过预定行为的权重值构建用户互动关系网络,其中,所述预定行为包括:跟随关系行为、粉丝关系行为、转发关系行为;
在所述用户互动关系网络中,通过网络结构分析的方法对所述用户团体信息中的用户进行角色识别,以确定整个团体中每个用户的重要值;
根据所述每个用户的重要值确定微博扩散策略。
5.如权利要求4所述的发现方法,其特征在于,对所述用户团体信息中的用户进行角色识别,以确定整个团体中每个用户的重要值包括:
计算整个团体中每个用户节点的中心性,其中,所述中心性包括:浓度中心性、亲近中心性和居间中心性;
通过迭代的方式确定所述每个用户节点的加权PageRank值;
根据所述中心性和所述加权PageRank值确定用户的重要值。
6.如权利要求5所述的发现方法,其特征在于,通过如下公式确定用户的重要程度:
s(a)=αCdegree(a)+βCcloseness(a)+γCbetweenness(a)+δwPR(a);
其中,Cdegree(a)为用户的频度中心性,Ccloseness(a)为用户的亲近中心性,Cbetweenness(a)为用户的居间中心性,wPR(a)为一个时间窗内用户的活跃值,α、β、γ和δ为调节各权重的系数。
7.一种微博团体的发现装置,其特征在于,包括:
词典构建模块,用于根据微博用户的元信息及微博内容,构建相互独立的特征信息词典;
特征确定模块,用于从预定时间段内用户的元信息和微博内容中分词,并基于特征信息词典和提取到的词语确定用户的兴趣特征向量;
学习模块,用于采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。
8.如权利要求7所述的发现装置,其特征在于,所述词典构建模块包括:
计算单元,用于按照如下公式计算当前语料库中待生成词典的各词语的IDF值,所述IDF值的计算公式为:其中,N表示当前整个语料库中的信息总条数,nd表示当前词语出现过的信息条数;
词典构建单元,用于保留计算得到的IDF值超过预定IDF值的词语,并将其添加到所述当前语料库对应的词典中,以构建所述特征信息词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510284124.1/1.html,转载请声明来源钻瓜专利网。