[发明专利]网络论坛中热点发现及其演化态势分析方法无效

专利信息
申请号: 201110231560.4 申请日: 2011-08-15
公开(公告)号: CN102270240A 公开(公告)日: 2011-12-07
发明(设计)人: 张伟哲;张宏莉;张玥;卢俊珈 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种网络论坛中热点发现及其演化态势分析方法,利用爬虫程序提取一个版块内所有帖子的HTML文本;从每个帖子文本中抽取浏览量和回复量构成二元组,设第i个帖子的二元组为(xi,yi);利用公式计算第i个帖子的得分;取得一个热度帖,根据回复记录统计自主题发布以来到抓取时每天发生的回复数得到二元组。下面列出拟合的效果以及评价指标:SSE=1.548e+07。SSE为误差项平方和,反映每个样本各观测值的离散状况,又称为组内平方和或残差平方和。R-square=0.8339。R-square是拟合系数,值越大拟合度越好。RMSE=525.7。RMSE为均方根误差,可以作为衡量测量精度的一种数值指标。对这些指标分析后,可以看出拟合的效果是比较理想的。求出最大的极值点为x0=14;取x1=15>x0,y′(x0)<0故该帖子的热度正在下降。
搜索关键词: 网络 论坛 热点 发现 及其 演化 态势 分析 方法
【主权项】:
一种网络论坛中热点发现及其演化态势分析方法,其特征在于,一、帖子打分方法(1)利用爬虫程序提取一个版块内所有帖子的HTML文本;(2)从每个帖子文本中抽取浏览量和回复量构成二元组,设第i个帖子的二元组为(xi,yi);(3)利用公式 S ( p i ) = ω 1 x i average ( x ) + ω 2 y i average ( y ) + ω 3 y i x i max ( a ) 计算第i个帖子的得分;其中,S(pi)代表第i个帖子的得分;average(x)表示所有帖子访问数的平均值;average(y)表示所有帖子回复数的平均值;max(α)表示所有元组中回复数比访问数的最大值;ω1[0.0‑0.3],ω2[0.0‑0.3],ω3[0.5‑1.0]为权重因子,初始置为ω1=0.1,ω2=0.2,ω3=0.8;(4)按照帖子分数高低排序,提取前k个感兴趣的热度帖子,作为演化态势分析的目标帖;二、演化态势分析方法(1)取得一个热度帖,根据回复记录统计自主题发布以来到抓取时每天发生的回复数,得到二元组(i,yi);其中,i为相距帖子发布日期的天数;yi为发生在第天的回复数;(2)为这些二元组建立平面直角坐标系:以增大的方向为x轴正向,y增大的方向为y轴正向,将元组投影到该坐标系中;(3)用合适的曲线y=f(x)拟合穿过这些点的曲线;(4)求y=f(x)的最大极值点;如果不存在极值点,取适当大小的x0,求y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态,结束;取大于xm的x0,求y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110231560.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top