[发明专利]基于频繁子树的社交网络马甲识别模型的方法在审
申请号: | 201710007000.8 | 申请日: | 2017-01-05 |
公开(公告)号: | CN106598954A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 段大高;高飒;韩忠明 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京慧泉知识产权代理有限公司11232 | 代理人: | 李娜 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 频繁 子树 社交 网络 马甲 识别 模型 方法 | ||
1.一种基于频繁子树的社交网络马甲识别模型的方法,特征在于:该方法步骤如下:
步骤一:获取微博文本数据;
步骤二:数据预处理:
1)删除微博文本中的重复语句;
2)删除带有“转发微博”标记的微博和转发微博;
3)删除微博文本中的网址链接;
4)删除微博文本中的话题;
5)删除微博文本中的表情;
6)删除字数小于5的微博;
步骤三:利用依存句法分析软件,对微博文本进行依存句法分析,每条微博会得到一个句法分析结果;经过分析后每条微博的句法分析结果如下:
其中,ID为当前词在句子中的序号,以1开始;FORM为当前词语;LEMMA为当前词语的原型或者词干,在中文中,此列与FORM相同;CPOSTAG为当前词语的词性;HEAD为当前词语的中心词;DEPREL为当前词语与中心词的依存关系;
该依存句法分析软件中包含的依存句法分析标注关系及含义如下:
将得到的句法分析结果构造为树型结构:首先,取句法分析结果的ID、HEAD、DEPREL三列,利用Python语言中的字典方法,将句法分析结果转为依存句法树,结果为:
WSi:WSi{R1:{Ri:{},Rn:{}}}(i∈[1,n])
其中,WSi表示某人微博列表中第i条微博的依存句法树,Rn表示该文本的依存句法关系;
步骤四:将步骤三得到的依存句法树采用先序字符串方法表示;先序字符串为给定一棵树T:
(1)如果T只有一个节点r,则T的先序字符串表示为S(T)=l(r)-1,其中l(r)表示为r的节点标签,‘-1’表示为结束符;
(2)如果T中的节点数目超过1,假定T的根节点为r,r有k个儿子ri(i=1,2,…,k),每个以ri为根的子树表示为则T的先序字符串表示为利用先序字符串表示的字典树为:WSi:WSi(R1Ri-1 Rn-1-1);
步骤五:某人的微博列表中的每个文本利用步骤四的方法得到分析结果,如下:
WS:WS(WS1,WS2,...WSi,...,WSn)
采用基于模式增长的频繁子树挖掘算法挖掘某人微博的常用依存句法结构;首先,用户给定一个最小支持度阈值SUPmin,最小支持度由多次实验对比实验效果得出,
最小支持度满足上述公式时效果最好;
支持度Support:
其中,A,B表示某一种句法结构,P(A∪B)表示A,B同时出现的概率;将支持度小于SUPmin的句法结构删除;结果即为频繁一项集;将频繁一项集中的子集两两结合,进行第二次扫描,计算支持度,去除小于SUPmin的句法结构,得到频繁二项集;依次重复,直至K项集中的支持度都大于SUPmin,得到频繁K项集,即为该用户微博常用的依存句法结构;
步骤六:将需要判断是否为马甲关系的两个账号分别按照步骤一至五,得到两个马甲账号的频繁依存句法树;采用编辑距离算法计算两个用户的相似度;
定义一个函数——edit(i,j),它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离
·if i==0且j==0,edit(i,j)=0
·if i==0且j>0,edit(i,j)=j
·if i>0且j==0,edit(i,j)=i
·if i≥1且j≥1,edit(i,j)==min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i,j)=1;否则,f(i,j)=0
将一个账号的每一棵依存句法树分别与另一个账号的所有依存句法树计算编辑距离,编辑距离若为0则表示两棵句法树相同,不需要编辑,即两个用户的某个句法结构相同;统计0的个数,并求出在两个用户所有句法树中出现的概率,若大于0.75,则两个用户互为马甲关系,反之,则为非马甲关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710007000.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种盲人语音计算器
- 下一篇:文件管理系统及其方法