[发明专利]一种互联网信息过滤以及互联网用户信息和网帖结构分析方法有效
申请号: | 201810132468.4 | 申请日: | 2018-02-09 |
公开(公告)号: | CN108595466B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 刘宁;许伟原;陈家炜 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/955;G06F16/35;G06F40/30 |
代理公司: | 广州凯东知识产权代理有限公司 44259 | 代理人: | 罗丹 |
地址: | 510000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 信息 过滤 以及 用户信息 结构 分析 方法 | ||
1.一种互联网信息过滤以及互联网用户信息和网帖结构分析方法,其特征在于包括以下步骤:
数据采集,利用python的爬虫框架,分析所需信息所在页面的url结构,根据分析结果构造请求url,模拟浏览器提交网络请求,使用正则表达式或者第三方库提取信息;
数据存储与检索,将采集回来的数据,按照贴吧数据的分类建表,然后将数据导入hbase,存储方式采用列存储,检索的方式是利用基于mapreduce计算框架的spark-sql进行检索;
用户关系分析,利用spark-sql筛选后的数据,通过关注度模型,把每个用户当做一个点,关系用边来表示,很多用户就构成一个无向有环图,把用户与用户之间的关系,转化为点与点之间的可达性问题;
贴吧分析,统计每个主题贴吧所拥有的用户数来确定贴吧的关注度,挖掘每个贴吧之间的关系,通过扫描每个用户关注的贴吧列表,来建立贴吧与贴吧之间的关系,贴吧作为点,贴吧之间的关系作为边,构造无向有环图;
文本相关性挖掘,利用TF/IDF 模型、LSI模型和余弦距离计算两个文本之间的相似性,在相似文本之间挖掘相关词;
相关词挖掘,把文本中出现的词转化为词向量,使用word2vec中的cbow模型来学习从当前词的周围的词预测当前词生成的概率的过程,利用skip/gram 模型来学习从当前词预测其他词生成的概率的过程,最后使用神经网络对从当前词预测其他词生成的概率的学习过程进行训练;
其中,所述用户关系分析包括以下步骤:
用户用点来表示,用户关系则用边进行表示,定义为G=(V,E),其中:V为非空集合,称为顶点集;E为集合,包括所有V中元素构成的有序二元组,即边的组合;一个点u的邻域及所有与此点相邻的点的集合,记为N(u),邻域在社交网络作为用户的好友群;
在社交关系中,用户的共同关注率以及共同粉丝率作为变量:
共同关注(u,w)=#{c:c∈u的所有关注集合且c∈w的所有关注集合}对所有w∈u的好友集
共同粉丝(u,w)=#{c:c∈u的所有粉丝集合且c∈w的所有粉丝集合}对所有w∈u的好友集
其中点u的所有关注集合和所有粉丝集合均不包括互粉好友。
2.根据权利要求1所述的一种互联网信息过滤以及互联网用户信息和网帖结构分析方法,其特征在于所述数据采集包括以下步骤:
利用python爬虫,分析所需信息所在页面的url,然后查看页面源代码,找出所需内容所在的标签,并分析标签结构;
在分析完结构后,构造对应的正则表达式用以匹配该结构的字符串;
接着,分析访问这个url的请求,也就是url后缀变动的参数部分,还有该请求的头部,创建内存池,将所有需要访问到的url放入url队列中;
然后编辑请求头来模拟浏览器访问网站,编辑了请求头后构造Get请求,发送get请求,并将所需的url对应的网页下载下来以文本形式保存;
最后利用之前构造的正则表达式,来解析网页标题,网页关键字。
3.根据权利要求1所述的一种互联网信息过滤以及互联网用户信息和网帖结构分析方法,其特征在于所述数据存储与检索包括以下步骤:
将所采集的数据按照实体进行分类,然后对每个实体进行建表,并对每个实体所对应的部分字段添加约束;
将数据进行分割,导入到HBase中,然后利用spark-sql做检索操作;
数据在HBase中按列存储的方式存储。
4.根据权利要求1所述的一种互联网信息过滤以及互联网用户信息和网帖结构分析方法,其特征在于所述文本相关性挖掘包括以下步骤:
先创建TF/IDF模型,随后在TF/IDF模型上创建LSI模型,最后利用余弦求文本的相关性,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类;如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810132468.4/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置