[发明专利]一种基于社交网络的数据采集与分析方法在审

申请号：	201910158711.4	申请日：	2019-03-04
公开（公告）号：	CN109902216A	公开（公告）日：	2019-06-18
发明（设计）人：	孙希延;刘莉慧;汪华登;罗笑南	申请（专利权）人：	桂林电子科技大学
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/332;G06Q50/00
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	覃永峰
地址：	541004 广西***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于社交网络的数据采集与分析方法，包括以下步骤：（1）以数据采集模块采用Python中的Scrapy框架，构建微博爬虫系统，使用分布式爬虫算法获取微博社交网络中用户数据；（2）数据存储模块将用户数据保存到JSON格式和NoSQL类型的MongoDB数据库中；（3）数据处理模块对用户原创内容的进行语义分析，进行用户的主题提取，对大量用户数据进行多维度挖掘分析、判别利用；（4）数据分析模块研究实现缺失属性信息推断算法，获取较全面的用户信息，实现社交网络用户画像。本发明通过大数据挖掘，获取有价值的信息，降低了大数据分析的成本。
搜索关键词：	社交网络用户数据数据采集与分析大数据微博社交网络用户数据采集模块数据处理模块数据存储模块数据分析模块用户原创内容爬虫爬虫系统属性信息算法获取用户信息语义分析主题提取挖掘多维度构建算法推断画像数据库分析保存研究
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于社交网络的数据采集与分析方法，其特征在于，包括以下步骤：（1）以数据采集模块采用Python中的Scrapy框架，构建微博爬虫系统，使用分布式爬虫算法获取微博社交网络中用户账号信息、用户原创内容以及用户社交关系数据；（2）数据存储模块将网络爬取的用户数据保存到JSON格式和NoSQL类型的MongoDB数据库中；（3）数据处理模块基于自然语言处理技术，对用户原创内容的进行语义分析，设计短文本主题提取算法，进行用户的主题提取，从时间序列、地域等角度对大量用户数据进行多维度挖掘分析，实现社交网络用户大数据的判别利用；（4）最后数据分析模块研究实现缺失属性信息推断算法，获取较全面的用户信息，实现社交网络用户画像。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学，未经桂林电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910158711.4/，转载请声明来源钻瓜专利网。

上一篇：一种交易匹配的方法及系统
下一篇：一种天文学数据筛选与下载的爬虫软件

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于社交网络的数据采集与分析方法在审

专利文献下载