[发明专利]一种互联网信息过滤以及互联网用户信息和网帖结构分析方法有效

申请号：	201810132468.4	申请日：	2018-02-09
公开（公告）号：	CN108595466B	公开（公告）日：	2022-05-10
发明（设计）人：	刘宁;许伟原;陈家炜	申请（专利权）人：	中山大学
主分类号：	G06F16/953	分类号：	G06F16/953;G06F16/955;G06F16/35;G06F40/30
代理公司：	广州凯东知识产权代理有限公司 44259	代理人：	罗丹
地址：	510000 ***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，通过爬虫获取数据，并利用spark‑sql进行数据检索，接着利用关注度模型对用户信息和贴吧进行了分析，最后对帖子的文本进行相关性计算和相关词挖掘，有效的提高了对水贴和广告贴的过滤效果。
搜索关键词：	一种互联网信息过滤以及用户信息结构分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，其特征在于包括以下步骤：数据采集，利用python的爬虫框架，分析所需信息所在页面的url结构，根据分析结果构造请求url，模拟浏览器提交网络请求，使用正则表达式或者第三方库提取信息；数据存储与检索，将采集回来的数据，按照贴吧数据的分类建表，然后将数据导入hbase，存储方式采用列存储，检索的方式是利用基于mapreduce计算框架的spark‑sql进行检索；用户关系分析，利用spark‑sql筛选后的数据，通过关注度模型，把每个用户当做一个点，关系用边来表示，很多用户就构成一个无向有环图，把用户与用户之间的关系，转化为点与点之间的可达性问题；贴吧分析，统计每个主题贴吧所拥有的用户数来确定贴吧的关注度，挖掘每个贴吧之间的关系，通过扫描每个用户关注的贴吧列表，来建立贴吧与贴吧之间的关系，贴吧作为点，贴吧之间的关系作为边，构造无向有环图；文本相关性挖掘，利用TFI‑DF模型、LSI模型和余弦距离计算两个文本之间的相似性，在相似文本之间挖掘相关词；相关词挖掘，把文本中出现的词转化为词向量，使用word2vec中的cbow模型来学习从当前词的周围的词预测当前词生成的概率的过程，利用skim‑gram模型来学习从当前词预测其他词生成的概率的过程，最后使用神经网络对上述学习过程进行训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810132468.4/，转载请声明来源钻瓜专利网。

上一篇：数据处理方法及装置
下一篇：一种基于回溯区块链历史的奖惩用户行为共识方法与系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种互联网信息过滤以及互联网用户信息和网帖结构分析方法有效

专利文献下载