[发明专利]一种融合兴趣主题与局部密度的重叠社区检测方法在审
申请号: | 201911215120.2 | 申请日: | 2019-12-02 |
公开(公告)号: | CN111241414A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 李慧;张舒;高超;施珺;戴红伟;樊宁;王霞 | 申请(专利权)人: | 江苏海洋大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536 |
代理公司: | 北京和联顺知识产权代理有限公司 11621 | 代理人: | 闫超良 |
地址: | 222005 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 兴趣 主题 局部 密度 重叠 社区 检测 方法 | ||
本发明公开了重叠社区检测算法领域领域的一种融合兴趣主题与局部密度的重叠社区检测方法,包含以下步骤,首先通过本体知识库构建用户层次兴趣模型;然后根据用户的层次兴趣模型,构造异类超图;最后根据异类超图,计算了每个节点的兴趣密度,基于节点的兴趣密度,通过选择社区核心,通过计算局部密度实现重叠社区检测,该方案确定了具有相似语义兴趣的群体,从而可以为目标用户提供多粒度的语义相关主题,在精度和召回率方面优于经典的重叠社区检测算法。
技术领域
本发明涉及重叠社区检测算法领域,具体为一种融合兴趣主题与局部密 度的重叠社区检测方法。
背景技术
近年来,各类社交媒体网站已成为提供热门服务的重要信息平台。然而, 微博场景中的短文本特征使得捕获有效偏好变得困难,从而降低了信息服务 的质量。在浏览内容时,人们可以与其他人互动,满足他们在人际关系方面 的众多需求。这些潜在的关系反映了用户的兴趣倾向和品味。因此,通过用 户的兴趣主题对于发现兴趣重叠社区至关重要。
一般来说,用户的兴趣是多维度和多粒度的。例如,一些用户可能对“运 动”等粗粒度的感兴趣,而其他一些用户则更喜欢“篮球”和“足球”等更 细粒度的主题。在计算用户相似性时,传统的方法主要是文本距离或本体概 念距离,忽略了兴趣结构和多层语义结构关系。对于两个对“运动”感兴趣 的用户来说,一个喜欢“篮球”,另一个想要“足球”,他们的相似性不仅 考虑了主题“运动”的相似性,还考虑了其结构的语义紧密性。综合结构相 似性计算考虑了主题的多层次,反映了用户之间的语义结构关系。相似性可 用于确定潜在的亲密用户并进行社区检测。据知,已有的重叠社区检测算法 很少从多颗粒主题的角度进行社区发现。在本研究中,通过对用户之间的多 粒度语义兴趣关系进行建模,结合社区的局部密度分析,从而解决重叠社区 检测的问题。
发明内容
本发明的目的在于提供一种融合兴趣主题与局部密度的重叠社区检测方 法,以解决上述背景技术中的问题。
为实现上述目的,本发明提供如下技术方案:一种融合兴趣主题与局部 密度的重叠社区检测方法,包含以下步骤:
S1:通过本体知识库构建用户层次兴趣模型;
S2:根据用户的层次兴趣模型,构造异类超图;
S3:根据异类超图,计算了每个节点的兴趣密度,基于节点的兴趣密度, 通过选择社区核心,通过计算局部密度实现重叠社区检测。
其中,S1的内容如下:
在现有微博网站上,提取重要的名词实体,计算词频和词频的权重,根 据本体知识库,根据TF-IDF机制,用层次兴趣主体及其相应权重对用户进行 建模;基于本体的用户建模方法可以有效表示用户的各种偏好,以便通过一 个多粒度的相似性模型来识别兴趣社区;
具体的是,在微博场景中,用户发布的消息通常包含不同的主题,使用 主题特性来分析用户的兴趣,为了使建模更有效,首先进行停用词的去除工 作,之后通过提取主题,每个消息可以形式化表示为m=(t1,W1m),(t2,W2m),..., (tp,Wpm),每个向量都是由属性值对构成;
这里,Wtm表示单词t在消息m中的相对重要性,即词的权重;Wtm由TF-IDF 加权项计算得到,其计算方法定义如下:
其中freqtm表示微博m中t的原始词频,maxl(freqtm)表示m中具有最大频 率的词条l的频率,Nm表示微博总数,nt表示包含单词t的微博数量,权重可 以描述任意单词在描述消息时的重要性程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏海洋大学,未经江苏海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911215120.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:转向柱组件
- 下一篇:体声波谐振器及其制造方法、滤波器及电子设备