[发明专利]多尺度空间下不确定行为语义的社交群体发现方法有效
申请号: | 201610038214.7 | 申请日: | 2016-01-20 |
公开(公告)号: | CN105719191B | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 于亚新;隋鸣飞;张海军;苏诚成 | 申请(专利权)人: | 东北大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06F16/35 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种多尺度空间下不确定行为语义的社交群体发现方法,属于数据挖掘和知识发现领域,本发明基于用户社交网Twitter行为轨迹,根据其发布推文地理位置的相似性以及推文词条所表达的不确定活动语义的相似性,来发现用户是否具相似有行为关系,从而找到对应的相似行为用户群体;实验证明,本发明在发现用户相似行为群体的准确性上优于现在已有的判断方法,具有很高的实际应用价值,如果能够得到极大推广,势必会有助于产业创新、促进跨界融合、惠及社会民生,推动我国经济和社会的创新发展。 | ||
搜索关键词: | 尺度 空间 不确定 行为 语义 社交 群体 发现 系统 方法 | ||
【主权项】:
1.一种多尺度空间下不确定行为语义的社交群体发现方法,采用多尺度空间下不确定行为语义的社交群体发现系统进行,所述系统包括社交网推文采集模块、多尺度空间下推文物理位置聚类模块、推文物理位置相似度矩阵计算模块、不确定行为语义词条库构建模块、推文词条提取模块、推文词条表达活动概率值及相似性概率获取模块和行为相似社交群体发现模块,其中:社交网推文采集模块:用于采集社交网站的推文数据集,包括发布内容、发布位置、用户ID、用户名和文本发布时间,并经过数据清洗操作后进行存储;多尺度空间下推文物理位置聚类模块:用于将每个用户推文形成的时空轨迹,按照基于密度的聚类方式在不同地理空间尺度下进行浓密区聚类,以生成用户多层次推文物理位置聚类簇序列;推文物理位置相似度矩阵计算模块:用于对聚类所得的任意一对用户间的各层推文轨迹簇序列进行物理位置的综合性相似度获取,即获得推文轨迹物理位置相似度;不确定行为语义词条库构建模块:用于构建社交网用户行为活动词条库,并抽取出每类活动包含的词条,通过重要性权重分布曲线,确定活动相关词条的判断阈值和活动半相关词条的判断阈值;将词条权重概率值大小与阈值进行比较,将词条分为活动相关词条、活动半相关词条和活动不相关词条三类,并赋予词条表达活动的概率值,获得不确定词条活动库;推文词条提取模块:用于对所有用户发布的推文文本进行词条提取;推文词条表达活动概率值及相似性概率获取模块:用于针对同层每一个最大位置轨迹匹配,合并同一用户不同物理位置簇的推文,生成推文语义词条集合,获得一对用户间推文语义活动的所有组合情况及各组合的概率值,进而获得一对用户间推文语义活动的同层概率值,即获得一对用户间同层推文语义行为相似度的概率值,再根据不同粒度划分层对语义相似度的权重,获得一对用户间推文语义活动的多层概率值,即获得一对用户间多层推文语义行为相似度的概率值;行为相似社交群体发现模块:用于根据推文轨迹物理位置相似度和活动相似性概率获得轨迹行为相似度,通过构建连通图的方式获得推文相似行为群体;其特征在于,所述方法包括以下步骤:步骤1、在样本采集范围内采用社交网推文采集模块获取社交网站的推文数据集;所述的推文数据集包括按照推文时间排序的推文物理位置和推文文本词条;步骤2、采用计算机中的多尺度空间下推文物理位置聚类模块,将每个用户推文形成的时空轨迹,按照基于密度的聚类方式在不同地理空间尺度下进行浓密区聚类,以生成用户多层次推文物理位置聚类簇序列;步骤3、采用多层次推文物理位置相似度矩阵计算模块,对聚类所得的任意一对用户间的各层推文轨迹簇序列进行物理位置的综合性相似度获取;步骤3‑1、获得同层节点下一对用户相似推文物理位置的相似度;同层节点下一对用户相似推文物理位置的相似度计算公式如下:其中,表示用户ui在第l层的物理位置轨迹簇序列;表示用户uj在第l层的物理位置轨迹簇序列;r表示物理位置轨迹;l表示第l层物理位置轨迹簇聚类;|q|表示最大匹配的个数;nC(TLCSq)表示第l层第q个最大推文轨迹簇公共子序列所包含的聚类簇个数,1≤q≤|q|;M表示同一聚类尺度下用户轨迹聚类簇总数;Nu表示推文数据集中的总用户数,u表示用户;nu(Cf)表示访问第l层第q个最大推文轨迹簇公共子序列第f个公共位置簇Cf的用户数,1≤f≤nC(TLCSq);表示ui在l层上的推文轨迹簇序列所包含的位置聚类簇个数;表示uj在l层上的推文轨迹簇序列所包含的位置聚类簇个数;步骤3‑2、综合获得各层节点下一对用户推文物理位置的相似度;计算公式如下:其中,表示用户ui和uj位置轨迹相似度;Tir表示用户ui的位置轨迹;表示用户uj的位置轨迹;wl表示不同粒度划分层对物理位置相似度的影响权重,wl=2l‑1,1≤l≤|l|,|l|表示不同粒度划分层的个数;步骤3‑3、重复步骤3‑1至步骤3‑2,获得所有用户对的多层次相似推文物理位置的相似度,并生成用户对多层次推文物理位置相似度下三角矩阵;步骤4、采用计算机中的不确定行为语义词条库构建模块,构建不确定词条行为活动库,具体步骤如下:步骤4‑1、划分活动类别,并提取各类活动包含词条;步骤4‑2、赋予各种不确定词条表达活动的概率值,具体步骤如下:步骤4‑2‑1、统计词条的词频和词条的逆向文本频率,根据词条的词频和词条的逆向文本频率获得词条的重要性权重;步骤4‑2‑2、通过重要性权重分布曲线,确定活动相关词条的判断阈值和活动半相关词条的判断阈值;步骤4‑2‑3、将词条权重概率值大小与阈值进行比较,将词条分为活动相关词条、活动半相关词条和活动不相关词条三类,并赋予词条表达活动的概率值,获得不确定词条行为活动库;步骤5、采用推文词条提取模块对所有用户发布的推文文本进行词条提取;步骤6、采用推文词条表达活动概率值及相似性概率获取模块,获得一对用户间推文语义行为相似度的概率值,具体步骤如下:步骤6‑1、针对同层每一个最大位置轨迹匹配,合并同一用户不同物理位置簇的推文,生成推文语义词条集合;步骤6‑2、获得一对用户间推文语义活动的所有组合情况及各组合的概率值,进而获得一对用户间推文语义活动的同层概率值,即获得一对用户间同层推文语义行为相似度的概率值;步骤6‑3、根据不同粒度划分层对语义相似度的权重,获得一对用户间推文语义活动的多层概率值,即获得一对用户间多层推文语义行为相似度的概率值;步骤7、采用行为相似社交群体发现模块,根据推文轨迹物理位置相似度和活动相似性概率获得轨迹行为相似度,通过构建连通图的方式获得推文相似行为群体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610038214.7/,转载请声明来源钻瓜专利网。