[发明专利]一种微博热点话题分析预测方法及系统在审
申请号: | 201710981613.1 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107885793A | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 钱晨嗣;周从华;陈伟鹤;王润宇;刘志锋;李雷;单田华 | 申请(专利权)人: | 江苏大学;无锡恒创医信科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 江苏纵联律师事务所32253 | 代理人: | 蔡栋 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 热点话题 分析 预测 方法 系统 | ||
1.一种微博热点话题分析预测方法,其特征在于包括以下步骤:
S1、从主流微博网站采集微博数据,述微博信息包括:微博内容、以及微博参数;
S2、对微博文本进行数据预处理,包括分词和词频统计等步骤;
S3、进一步计算分析微博文本,统计描述话题的各个量化指标,并计算微博的各个热度指标,计算出当前的微博热点话题;
S4、按照热度从高到低的顺序输出显示微博热点话题。
2.根据权利要求1所述的一种微博热点话题分析预测方法,其特征在于所述采集微博数据具体为:通过一门户微博指定的开放接口采集该门户的微博信息,一般采用网络爬虫,作用是搜索网络,并从中下载和存储所需数据。
3.根据权利要求1所述的一种微博热点话题分析预测方法,其特征在于所述采集微博数据过程为:
过程1.1,跟踪爬虫所有已知URL的存储模块;
过程1.2,根据给定的URL从网络中获取文件的文件下载模块;
过程1.3,负责从Html、PDF、Word等各种格式的文件中提取原始内容的文件解析模块,也负责提取文件中的URL,以及其他在索引中有用的数据,尤其是元数据信息;
过程1.4,存放已经采集到的文件的元数据和在爬取过程中从原始文件提取出来的内容的存储模块;
过程1.5,将URL转换到标准形式,以便比较和计算URL的规则化模块;
过程1.6,避免无效URL的URL过滤模块;
网络爬虫自动获取多个初始网页的URL,在搜索和抓取URL的过程中,引用增量更新的概念,在爬取当前页面的同时也在爬取后面接连而来的URL,直到满足0定义的结束判定条件。
4.根据权利要求2所述的一种微博热点话题分析预测方法,其特征在于:所述采集微博数据适于对已采集的微博内容采用自动聚类的方法对微博进行分类,得出微博所属类别。
5.根据权利要求1所述的一种微博热点话题分析预测方法,其特征在于所述数据预处理具体工作过程如下:
过程2.1,输入文档集合,将源微博与转发微博进行合并,
过程2.2,使用分词技术现有工具jieba对微博文本进行分词;
过程2.3,滤停用词包括数字、标点符号和其他无意义的词汇,要保留包含“#”表示一个讨论的话题、“@用户”表示话题的转发适于根据垃圾词组数据库中心词组中过滤垃圾词组;
过程2.4,以及对分词结果进行词性标注,标注内容的有词频WF、词位WL、特殊标志SI、命名实体NE等参数。
6.根据权利要求1所述的一种微博热点话题分析预测方法,其特征在于所述话题计算分析的具体步骤如下:
步骤3.1,对微博进行分类,根据微博的来源将其分为,源微博与转发微博;
步骤3.2,基于Mantaras距离优化提取关键词;
步骤3.3,根据关键词的三元组<w,t,s>,w表示微博链中某个单词;t表示该单词所在微博与被转发微博之间的时间间隔,为了方便计算这里采用的是时间划分等级;s表示该单词所在微博的类型,取值是(0、1、2),分别对应的就是上面的一般式、显式、广播式;三元组的数据空间表示为W,很显然被转发消息中单词所对应的三元组中的t的取值为0;
步骤3.4,根据关键词及其三元组计算话题的热度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学;无锡恒创医信科技发展有限公司,未经江苏大学;无锡恒创医信科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710981613.1/1.html,转载请声明来源钻瓜专利网。