[发明专利]基于新闻评论的网络水军识别方法和装置在审
申请号: | 202010009216.X | 申请日: | 2020-01-06 |
公开(公告)号: | CN111191037A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 代继涛;赵立永;吴新丽;韩勇;李丹;刘启明 | 申请(专利权)人: | 新华网股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/383;G06F40/279;G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 戎郑华 |
地址: | 100162 北京市大兴区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 新闻 评论 网络 水军 识别 方法 装置 | ||
1.一种基于新闻评论的网络水军识别方法,其特征在于,包括:
获取第一用户针对预设新闻事件发布的目标评论集,其中,目标评论集中包括多条评论及每条评论的发布时间;
根据所述目标评论集中各条评论间的相似性,确定所述第一用户对应的第一文本相似度特征;
根据所述预设新闻事件对应的参考时间窗口及所述第一用户的每条评论的发布时间,确定所述第一用户对应的信息熵特征;
利用预设的模型,对所述第一用户对应的第一文本相似度特征及信息熵特征进行编码、解码处理,确定所述第一用户为水军的概率值。
2.如权利要求1所述的方法,其特征在于,所述获取第一用户针对预设新闻事件发布的目标评论集之后,还包括:
根据所述目标评论集中每条评论中包括的字符数量及每条评论的发布时间,确定所述第一用户对应的单位时间内发布的字符数量;
所述确定所述第一用户为水军的概率值,包括:
利用预设的模型,对所述第一用户对应的第一文本相似度特征、信息熵特征及单位时间内发布的字符数量进行编码、解码处理,确定所述第一用户为水军的概率值。
3.如权利要求1所述的方法,其特征在于,所述根据所述目标评论集中各条评论间的相似性,确定所述第一用户对应的第一文本相似度特征之前,还包括:
对所述目标评论集中的每条评论进行分词处理,确定每条评论中包含的有效分词;
根据所述目标评论集中的第一评论和第二评论中包含的相同有效分词数量,及第一评论中包含的有效分词数量和第二评论中包含的有效分词数量,确定所述第一评论和第二评论的相似性。
4.如权利要求1所述的方法,其特征在于,还包括:
获取所述预设新闻事件对应的参考评论集,其中,所述参考评论集中包括所述预设新闻事件对应的每个第二用户发布的参考评论,其中,第二用户与所述第一用户不同;
根据所述目标评论集中每条评论与每条参考评论间的相似性,确定所述第一用户对应的第二文本相似度特征。
5.如权利要求4所述的方法,其特征在于,所述确定所述第一用户对应的第二文本相似度特征之后,还包括:
根据所述第一文本相似度特征及第二文本相似度特征,确定所述第一用户对应的发帖强度值;
若发帖强度值大于第一阈值,则确定所述第一用户为水军。
6.如权利要求4所述的方法,其特征在于,所述参考评论集中,还包括每条参考评论的发布时间;
所述方法,还包括:
根据第一用户的起始评论的发布时间及终止评论的发布时间,确定所述第一用户对应的第一评论时间间隔;
根据每个第二用户的起始参考评论的发布时间及终止参考评论的发布时间,确定每个第二用户对应的第二评论时间间隔;
根据所述第一评论时间间隔及第二评论时间间隔,确定所述预设新闻事件对应的最大评论时间间隔;
根据所述预设新闻事件对应的单个用户发布的最多评论数量及所述最大评论时间间隔,确定所述参考时间窗口。
7.如权利要求1-6任一所述的方法,其特征在于,所述根据所述预设新闻事件对应的参考时间窗口及所述第一用户的每条评论的发布时间,确定所述第一用户对应的信息熵特征,包括:
根据所述预设新闻事件对应的参考时间窗口及所述第一用户的每条评论的发布时间,确定所述第一用户在每个参考时间窗口内发布的评论数量;
根据所述第一用户在每个参考时间窗口内发布的评论数量,确定所述第一用户对应的评论序列;
依据预设的算法,根据所述第一用户对应的评论序列,确定所述第一用户对应的信息熵特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华网股份有限公司,未经新华网股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010009216.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于决策树与特征优化的遥感影像震害建筑物识别方法
- 下一篇:一种密码验证方法