[发明专利]一种基于依存句法关系的微博马甲账号识别方法有效
申请号: | 201610350203.2 | 申请日: | 2016-05-24 |
公开(公告)号: | CN106021232B | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 段大高;高飒;韩忠明 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;H04L12/58;H04L29/06 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;李娜 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于依存句法关系的微博马甲账号识别方法,具体步骤如下:步骤一:获取微博文本数据;步骤二:采用分词软件进行分词,去除英文及标点符号;步骤三:采用依存句法分析软件,对已分词后的文本进行依存句法分析,每条微博会得到一个句法分析结果;步骤四:某人的微博列表中的每个文本利用步骤三的方法得到分析结果;采用Apriori算法计算某人微博的常用依存句法结构;步骤五:将需要判断是否为马甲关系的两个账号分别按照步骤一至四的结果进行对比,相同即为马甲关系,反之,则为非马甲关系。本发明方法可以用在社交网站对于网络安全的管理以及政府关于网络犯罪的追查,能够快速,有效地识别马甲账号。 | ||
搜索关键词: | 一种 基于 依存 句法 关系 马甲 账号 识别 方法 | ||
【主权项】:
1.一种基于依存句法关系的微博马甲账号识别方法,具体步骤如下:步骤一:获取微博文本数据;步骤二:采用分词软件进行分词,去除英文及标点符号;步骤三:采用依存句法分析软件,对已分词后的文本进行依存句法分析,每条微博会得到一个句法分析结果;经过依存句法分析后,微博短文本的保存结果形式为:
(
)(i∈[1,n])其中,
表示某人微博列表中第i条微博的依存句法分析结果,
表示该文本的依存句法结构;所述依存句法分析所用的标注关系包括14种:主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、介宾关系、左附加关系、右附加关系、独立结构、核心关系;步骤四:某人的微博列表中的每个文本利用步骤三的方法得到分析结果,如下:
:
(
)采用Apriori算法计算某人微博的常用依存句法结构:首先,给定一个最小支持度阈值
,第一次扫描微博列表,计算每个句法结构(
)的支持度(Support);支持度Support:Support(A ⇒B )=P(A ∪ B)其中,A,B表示某一种句法结构,P(A ∪ B) 表示A,B同时出现的概率;将支持度小于
的句法结构删除,结果即为频繁一项集;将频繁一项集中的子集两两结合,进行第二次扫描,计算支持度,去除小于
的句法结构,得到频繁二项集;依次重复,直至K项集中的支持度都大于
,得到频繁K项集,即为该用户微博常用的依存句法结构;步骤五:将需要判断是否为马甲关系的两个账号分别按照步骤一至四的结果进行对比,相同即为马甲关系,反之,则为非马甲关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610350203.2/,转载请声明来源钻瓜专利网。