[发明专利]一种基于大数据的网络文章转发识别方法有效

专利信息
申请号: 201611051297.X 申请日: 2016-11-25
公开(公告)号: CN106708947B 公开(公告)日: 2020-06-09
发明(设计)人: 罗炜敏;聂敏;苗大泉 申请(专利权)人: 成都寻道科技有限公司
主分类号: G06F16/955 分类号: G06F16/955;G06F40/279
代理公司: 暂无信息 代理人: 暂无信息
地址: 611730 四川省成都市郫县德源*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 网络 文章 转发 识别 方法
【说明书】:

发明公开了一种基于大数据的网络文章转发识别方法,通过搜索引擎定时且不间断的在互联网上采集各种类型文章,依据所集文章建立文章数据仓库;确认需要识别的文章及其显隐性,显式转发文章通过传播链接的比对进行转发识别,隐式转发文章通过模糊Hash值的比对查找到与待识别文章有关联的文章Pm,再进一步的识别出与之存在转发关系的文章Pe,根据文章Pe传播时间的先后重新排列找到源文章。通过本发明的实施能够找到文章的转发路径,解决了现有的人为排查耗时长、且效率低的问题,同时,依据查找到的具备转发关系的文章,为有关部门对有害网络文章的禁止传播提供数据依据,此外,本发明还能够用于网络文章的原创性判定以及文章的影响力评估。

技术领域

本发明涉及一种网络文章转发识别技术,尤其涉及一种基于大数据的网络文章转发识别的方法。

背景技术

随着互联网的快速发展,网络媒体也发展强劲,网络文章作为网络媒体最主要的表达形式,包括新闻、娱乐消息、体育报道等等,在微博、微信、博客等新闻媒体上大量的相互转载和传播;而另一方面,越来越多的网友习惯于在网上表达自己对各种新闻信息的看法和见解,这些看法和见解的论点明确、论述清楚,文字更是上升成了完整的网络评论形成了网络文章,该类网络文章也在大量的传播和转载。

大量的虚假、欺诈、有害的文章在网络上肆意传播,相关部门若要禁止该类文章的传播就须要找到该类文章的传播源头,现有技术中只能通过人工排查的方式找到该类文章的传播途径和来源,而一篇文章在网上发表后,由于网络的复杂性,具有转发多层次、多路径、转发量大等特点,最终形成了结构复杂的多级的网状转发路径;人工排查主要通过网民举报、网关监督等手段查找其转发路径,其耗时长且效率低。特别的,若该类文章为隐式转发文章,即通过计算机手段如复制、粘贴的方式完全拷贝或者部分拷贝别人的文章用以自我发表,该类文章的转发未有转发链接也没有标明文章的出处,且很容易形成多级的跨网站式的传播时,通过人为排查找到源文章难度极大,即便找到源文章,想要有效的禁止此类文章的传播,也缺乏有效手段。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于大数据的网络文章转发识别方法。

本发明通过以下技术方案来实现上述目的:

一种基于大数据的网络文章转发识别方法,包括:

通过搜索引擎定时且不间断的在互联网上采集各种类型文章,依据所集文章建立文章数据仓库,而后,确认需要识别的文章及其转发类型,若转发文章标出文章来源,则为显式转发文章,若转发文章未标出文章的来源,则为隐式转发文章。

对于显式转发文章,采用如下方法实现转发识别:

步骤A1:设置初始集合S为空集,将待识别的文章A的链接放入集合S;

步骤A2:设置一个临时集合C为空集;

步骤A3:取出集合S中的元素,与数据仓库中的其他文章的传播链接进行逐一匹配,若匹配成功,则将该匹配成功的文章P的链接加入集合C,反之,若匹配失败,则继续与数据仓库中的下一条传播链接进行匹配;

步骤A4:清空集合S中的元素,将C中所有元素加入S,清空集合C;

步骤A5:重复步骤A2至A4,直到集合S为空集;

步骤A6:根据步骤A3所获传播链接的传播时间的先后重新排列链接;

对于隐式转发文章,采用如下方法实现转发识别:

步骤B1:设置初始集合S1,提取数据仓库中所有文章的关键信息,并根据各自的关键信息计算得到各自的模糊Hash值;

步骤B2:将待识别文章A的模糊Hash值与数据仓库中所有文章的模糊Hash值的逐一比对,找到与文章A有关联的文章Pm的模糊Hash值,并进一步查找出该类文章的具体内容,放入集合S1:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都寻道科技有限公司,未经成都寻道科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611051297.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top