[发明专利]基于频繁子树的社交网络马甲识别模型的方法在审
申请号: | 201710007000.8 | 申请日: | 2017-01-05 |
公开(公告)号: | CN106598954A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 段大高;高飒;韩忠明 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京慧泉知识产权代理有限公司11232 | 代理人: | 李娜 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 频繁 子树 社交 网络 马甲 识别 模型 方法 | ||
技术领域
本发明涉及一种基于频繁子树的社交网络马甲识别模型的方法,它应用于社交网络中文本作者关系鉴别,属于数据挖掘技术领域。
背景技术
目前,随着科技的迅速发展,尤其是互联网技术的发展,全球互联网用户总量已超30亿,23.1亿社交媒体用户。赛迪顾问发布的《2016年1月中国移动互联网月活跃用户数监测报告》中,微信、QQ、新浪微博的月活跃数位列前三。在社交网络中,同一人拥有多个账号的情况十分常见。某人会注册一个微博ID,经常使用或者登陆的称为主ID,现在很多网友并不满足一个微博ID,会注册其它微博ID,常在不想表露主ID身份时,用非主ID的账号发言,这些非主ID账号称为马甲账号。马甲账号有其负功能的一面,例如:使用马甲账号散布谣言;在别人的文章下进行语言攻击或者诋毁,诱导不正确的价值观;使用马甲账号对主微博ID进行推广等等。这样的行为会影响网络的安全及公平性。社交网络的实名制是一个困难的问题,大部分网友没有进行实名认证,不容易知道他们的真实身份。当网友发表不和谐的言论时,例如:传播不良信息,侮辱诽谤他人甚至泄漏国家机密等等,将马甲账号规约为同一人,会有助于政府部门打击犯罪行为。
目前,基于语言风格的作者识别研究越发受到重视,本方法同样可用于微博短文本进行马甲账号的识别。依存句法是分析自然语言文档的方法之一,最先由法国语言学家L Tesnier于1959年在他所著的《结构句法基础》中提出。依存句法认为句子中述语动词是支配其他成分的中心,而它本身不受其他任何成分的支配,所有受支配成分都通过某种依存关系从属于其支配者。依存句法提出后,在各研究领域中产生了巨大影响,尤其是受到了致力于语言自动处理研究的语言学家的推崇。20世纪70年代,Robinson提出了依存句法中四条关于依存关系的公理:
(1)一个语句中只有一个独立成分;
(2)其他成分直接依存于某一成分;
(3)任何一个成分都不能同时依存于两个或两个以上的成分;
(4)如果A成分直接依存于B成分,而语句中,C成分在句中位于A成分和B成分之间,那么C或者直接依存于A,或者直接依存于B,或者直接依存于A和B之间的某一成分。
随着我国对自然语言处理研究的深入,在20世纪90年代,我国学者开始把分析依存句法的方法应用到汉语语料库语言学的研究中,并且与汉语语法实践相结合,提出了依存关系的第五条公理:中心成分左右两边的成分互相不存在依存关系。本发明对微博短文本进行依存句法关系分析,采用基于模式增长的频繁子树挖掘算法得出每个用户的语言风格——依存句法树特征,分析微博账号的语言风格,并进行相似度的计算,识别微博马甲账号。
发明内容
1、目的:
本发明目的是提供一种基于频繁子树的社交网络马甲识别模型的方法,在拥有大量用户的微博中,能够快速、有效地识别马甲关系,进而有助于其它部门的下一步工作。
本发明的原理是:首先进行自然语言的处理,对某个用户的所有微博短文本进行分词,获取分词结果并分析短文本的依存句法结构,将每条微博的依存句法结构进行保存,并且将所得到的的句法分析结果构造为树型结构,采用Pre-Order-String(先序字符串)方法表示,直至这个用户的所有微博文本分析完毕。采用基于模式增长的频繁子树挖掘算法挖掘出这个用户使用依存句法结构的频繁模式,即为此用户的语言风格。对比两个用户的依存句法结构,利用编辑距离计算其相似度,进而可以判断是否为马甲关系。
2、技术方案:本发明提供的技术方案如下:
本发明是一种基于频繁子树的社交网络马甲识别模型的方法,如图1所示,该方法具体步骤如下:
步骤一:获取微博文本数据。
步骤二:数据预处理:
1)删除微博文本中的重复语句;
2)删除带有“转发微博”标记的微博和转发微博,例如://@...;
3)删除微博文本中的网址链接,例如:http://...;
4)删除微博文本中的话题,例如:#你好#;
5)删除微博文本中的表情,例如:[微笑];
6)删除字数小于5的微博。
步骤三:利用依存句法分析软件,对微博文本进行依存句法分析,每条微博会得到一个句法分析结果。经过分析后每条微博的句法分析结果如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710007000.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种盲人语音计算器
- 下一篇:文件管理系统及其方法