[发明专利]网络论坛中热点发现及其演化态势分析方法无效
申请号: | 201110231560.4 | 申请日: | 2011-08-15 |
公开(公告)号: | CN102270240A | 公开(公告)日: | 2011-12-07 |
发明(设计)人: | 张伟哲;张宏莉;张玥;卢俊珈 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明提供了一种网络论坛中热点发现及其演化态势分析方法,利用爬虫程序提取一个版块内所有帖子的HTML文本;从每个帖子文本中抽取浏览量和回复量构成二元组,设第i个帖子的二元组为(xi,yi);利用公式 |
||
搜索关键词: | 网络 论坛 热点 发现 及其 演化 态势 分析 方法 | ||
【主权项】:
一种网络论坛中热点发现及其演化态势分析方法,其特征在于,一、帖子打分方法(1)利用爬虫程序提取一个版块内所有帖子的HTML文本;(2)从每个帖子文本中抽取浏览量和回复量构成二元组,设第i个帖子的二元组为(xi,yi);(3)利用公式 S ( p i ) = ω 1 x i average ( x ) + ω 2 y i average ( y ) + ω 3 y i x i max ( a ) 计算第i个帖子的得分;其中,S(pi)代表第i个帖子的得分;average(x)表示所有帖子访问数的平均值;average(y)表示所有帖子回复数的平均值;max(α)表示所有元组中回复数比访问数的最大值;ω1[0.0‑0.3],ω2[0.0‑0.3],ω3[0.5‑1.0]为权重因子,初始置为ω1=0.1,ω2=0.2,ω3=0.8;(4)按照帖子分数高低排序,提取前k个感兴趣的热度帖子,作为演化态势分析的目标帖;二、演化态势分析方法(1)取得一个热度帖,根据回复记录统计自主题发布以来到抓取时每天发生的回复数,得到二元组(i,yi);其中,i为相距帖子发布日期的天数;yi为发生在第天的回复数;(2)为这些二元组建立平面直角坐标系:以增大的方向为x轴正向,y增大的方向为y轴正向,将元组投影到该坐标系中;(3)用合适的曲线y=f(x)拟合穿过这些点的曲线;(4)求y=f(x)的最大极值点;如果不存在极值点,取适当大小的x0,求y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态,结束;取大于xm的x0,求y的导数在x0处y′(x0)的值,若为正数则该帖热度处于上升状态,否则处于平缓或下降状态。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110231560.4/,转载请声明来源钻瓜专利网。