[发明专利]一种结合评论关系网络图的微博垃圾评论识别方法有效
申请号: | 201710351745.6 | 申请日: | 2017-05-18 |
公开(公告)号: | CN107239512B | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 周可;李春花;潘媛媛 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/2458;G06F17/27 |
代理公司: | 武汉臻诚专利代理事务所(普通合伙) 42233 | 代理人: | 宋业斌 |
地址: | 430074 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 评论 关系 网络图 垃圾 识别 方法 | ||
1.一种结合评论关系网络图的微博垃圾评论识别方法,其特征在于,包括如下步骤:
(1)从微博平台爬取训练集、测试集、以及博文语料库,根据与微博平台中的微博评论相关的主体以及主体之间的关系构建评论关系网络图模型,并根据爬取的训练集和测试集对构建的评论关系网络图进行处理,以生成基于Neo4j开源软件的评论关系网络图;
(2)使用开源的全文搜索引擎为爬取的博文语料集建立索引,使用建立的索引执行博文语料集的搜索,并根据搜索返回的结果计算文本词之间的相关度值;本步骤首先是从微博平台收集博文语料集,然后为语料集中的每条博文文本创建一个独立的文件,并使用Lucence全文搜索引擎为这些文件创建索引并提供全文搜索功能,以利用搜索返回的文件数目来计算文本词之间的相关度;其中计算文本词之间的相关度具体是采用以下公式:
其中u和v均表示文本词,TextNum(u,v)表示同时包含文本词u和v的博文数目,TextNum(u)表示包含文本词u的博文数目,TextNum(v)表示包含文本词v的博文数目;
(3)对评论关系网络图中的评论文本节点与博文文本节点进行基于结构信息的数据预处理操作,提取数据预处理操作结果中评论文本节点的基本元数据,并使用该基本元数据为相应节点设置节点属性值;
(4)针对评论关系网络图中的每个评论文本节点,计算其评论文本与对应博文之间的文本相关度,并根据该文本相关度值在评论关系网络图中为该评论文本节点的相关度属性设置对应的相关度属性值;
(5)根据步骤(1)中爬取的训练集和步骤(4)得到的相关度属性值构建初始评论文本分类器;
(6)根据步骤(5)构建的初始评论文本分类器对每个测试集中的评论文本进行类别判定,并将最终的判定结果增量反馈至初始评论文本分类器中继续学习。
2.根据权利要求1所述的微博垃圾评论识别方法,其特征在于,
评论关系网络图中的节点包括用户节点、博文文本节点、评论文本节点、以及文本词节点;评论关系网络图中的节点关系包括关注关系、交互关系、发表关系、拥有关系以及相关关系。
3.根据权利要求1所述的微博垃圾评论识别方法,其特征在于,结构信息包括已经结构化的表情符号,评论文本节点的基本元数据包括评论文本的字重复率、URL链接、特殊字符数目以及连续数字。
4.根据权利要求3所述的微博垃圾评论识别方法,其特征在于,步骤(4)包括如下子步骤:
(4.1)对评论关系网路图中的所有评论文本和博文文本进行中文分词,对中文分词得到的词集列表进行实词提取,并在评论关系网络图中对实词提取的结果进行文本词节点创建操作,以得到评论词集列表和博文词集列表;
(4.2)根据评论词集列表和博文词集列表构建评论文本与对应博文之间的文本相关度矩阵MRV:
该矩阵中任意一个元素ρij表示评论词集列表中第i个文本词与博文词集列表中第j个文本词之间的相关度,a表示评论词集列表的长度,b表示博文词集列表的长度,i为1到a之间的任意整数,j为1到b之间的任意整数;
(4.3)从步骤(4.2)得到的文本相关度矩阵中的每个行向量(ρi1,ρi2,…,ρij,...,ρib)中选择最大值组成最大值集合(ρ1Max,ρ2Max,...,ρaMax),并根据该最大值集合得到评论文本节点的相关度属性所对应的属性值RV(X,Y)为:
其中X表示评论词集列表,Y表示博文词集列表,f表示文本词在文本中的词频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710351745.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数字化信息的整理方法
- 下一篇:一种用户主页管理方法、装置及电子设备