[发明专利]一种社交媒体账号识别方法及系统在审
申请号: | 201910817167.X | 申请日: | 2019-08-30 |
公开(公告)号: | CN110688593A | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 陆夏根;朱世伟;魏墨济;于俊凤;李晨;李宪毅 | 申请(专利权)人: | 安徽芃睿科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/35;G06F16/33;G06F40/211;G06F40/253;G06F40/284;G06Q50/00 |
代理公司: | 37221 济南圣达知识产权代理有限公司 | 代理人: | 张庆骞 |
地址: | 230000 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 兴趣特征 话题 候选词汇 话题数据 主题特征 抽取 媒体数据源 聚类算法 页面解析 账号识别 切入点 社交网 映射 解析 挖掘 | ||
1.一种社交媒体账号识别方法,其特征在于,包括:
以社交媒体数据源中解析出的种子URL为切入点,对页面解析出表单;
抽取表单中的话题、所有候选词汇及其对应关系,得到话题数据源;其中,当表单中的本文为半格式化文本时,首先,分离含有种子词语的语句并为其构建语法树,使用POS方法标注种子词语及其上下文词性;其次,将句子表示成<词语,词性>二元组序列,同时将种子词语替换为标识符;再次,基于序列数据MFS-HT算法挖掘高置信度规则发现候选词汇;
采用K-modes聚类算法对话题数据源中的数据进行聚类,得到聚类话题;
从聚类话题对应的候选词汇中抽取聚类话题的主题特征,利用LSA方法将聚类话题的主题特征映射为元主题来描述社交媒体账号的兴趣特征;
利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征;
利用社交媒体账号所属的社交网来描述社交媒体账号的社交特征;
通过计算两个社交媒体账号的兴趣特征、观点特征和社交特征的相似性,来判断两个社交媒体账号是否为同一个账号。
2.如权利要求1所述的社交媒体账号识别方法,其特征在于,在抽取表单中所有候选词汇的过程中,当表单中的本文为无格式文本时,使用词法分析标识种子词语的修饰词,其次,将种子词与修饰词加入轮询起点,采用DP方法发现新词汇;通过与种子词汇互信息计算过滤新发现候选词汇。
3.如权利要求1所述的社交媒体账号识别方法,其特征在于,判断两个社交媒体账号是否为同一个账号的过程为:
根据兴趣特征、观点特征和社交特征的多维度特性,分别对应构建兴趣偏好矩阵,观点矩阵和社交网络矩阵,并通过余弦算法计算兴趣偏好相似矩阵、观点相似性矩阵和社交网络矩阵;
对兴趣偏好相似矩阵、观点相似性矩阵和社交网络矩阵分别赋予相应的权重,对上述三个相似矩阵进行线性加权,得到加权结果;
根据加权结果与设定的阈值比较,得到每个账号的排列在前k个密切相关的账号,进而得到该账号的组织关系;其中,k为正整数。
4.如权利要求1所述的社交媒体账号识别方法,其特征在于,利用Apriori算法挖掘兴趣特征的表述规则,得到社交媒体账号的观点特征的过程为:
聚类话题的观点特征存储至原序列数据库,将原序列数据库平均划分为n个不相交的子序列数据库;其中,n为正整数;
利用主节点将n个子序列数据库分派给不同的Map工作节点,每个Map工作节点执行序列模式挖掘算法,按照设定的最小支持度,扫描存放在Map工作节点内存中的子序列数据库,计算出局部序列模式;
将得到的局部序列模式传递给Reduce工作节点,归并处理得到全局候选序列模式;
再一次扫描原序列数据库,找出满足不小于系统设定的最小支持度的序列模式,进而得到观点特征的表征。
5.如权利要求4所述的社交媒体账号识别方法,其特征在于,每个Map工作节点执行序列模式挖掘算法的过程为:
给定最小支持度ξ,如果序列S在序列数据库中的支持度不低于ξ,则称序列S为序列模式;
其中,序列S在序列数据库的支持度为包含S的序列在序列数据库中所占的百分比;序列S在序列数据库的支持度计数为序列数据库中包含S的序列个数。
6.如权利要求4所述的社交媒体账号识别方法,其特征在于,从社交媒体数据源中解析出的种子URL的过程为:
从社交媒体数据源中抽取出新的网址部分,作为判断新数据源的候选网址;
采用编辑距离匹配算法计算候选网址和初始化数据源的字符串相识度;
若候选网址和初始化数据源的字符串相识度不小于预设相似度阈值,则将候选网址为种子URL;其中,编辑距离越小,相似度越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽芃睿科技有限公司,未经安徽芃睿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910817167.X/1.html,转载请声明来源钻瓜专利网。