[发明专利]一种网络舆情的热点预测和分析方法无效

专利信息
申请号: 200910214401.6 申请日: 2009-12-30
公开(公告)号: CN101763401A 公开(公告)日: 2010-06-30
发明(设计)人: 姚国祥;罗伟其;官全龙;宋嘎子;陈凤其 申请(专利权)人: 暨南大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 陈燕娴
地址: 510632 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络 舆情 热点 预测 分析 方法
【权利要求书】:

1.一种网络舆情的热点预测和分析方法,其特征在于包括以下步骤:

步骤(1)、将及时采集的舆情信息输入基于内容快速识别的热点舆情预测模 型,根据处理结果将舆情信息分为热点舆情和普通舆情,对热点舆情发出预警;

步骤(2)、将普通舆情信息输入基于数值表现的热点预测模型,从参与人数 分布和时间状态分布上,对所输入的普通舆情信息进行数值模式匹配,检测出 步骤(1)所漏检的热点舆情信息;

步骤(3)、对热点舆情进行分析;

步骤(4)、对热点舆情进行预测;

步骤(1)中所述的基于内容快速识别的热点舆情预测模型建立过程如下:

步骤(11)、收集舆情监控目标在一段时间内的热点舆情信息,并将所收集 的热点舆情信息分为M类,得到分类信息;

步骤(12)、对步骤(11)所得的分类信息进行预处理;

步骤(13)、提取类关键词特征,其中用向量空间模型表示每个类,每一类 表示为:

Ci=(Ti1,Wi1;Ti2,Wi2;...;Tin,Win;...)

其中Ci表示第i个热点类,Tij表示Ci中的第j个关键词,Wij表示Tij在 Ci中的权重,j=1,2,……,n;

步骤(14)、基于内容的分类计算,建立类别空间向量,从而构建热点舆情 预测模型;对于待测舆情信息I,采用中文信息预处理,获得长度大于2的名词、 动词和名动词序列I=(I1,I2,...,Im),计算待测舆情信息I属于每个类的类 别值I|Ci:

I|Ci=I|Ci+WikIj=Tik,1jm,1KnI|CiIjTik,1jm,1Kn]]>

设H(I)为预设阈值,若I|Ci≥H(I),且I|Ci最大,则待测舆情信息I为Ci类热点 舆情信息;若I|Ci<H(I),则待测舆情信息I为普通舆情信息;

步骤(2)中所述的基于数值表现的热点预测模型建立过程如下:

步骤(21)、收集舆情监控目标在一段时间内的热点舆情信息M={M1,M2,.., Mm},总热点舆情信息数为m,获取每个热点舆情信息Mi,在Δt时间内的浏 览人数BNi,回帖人数RNi,回帖时间间隔序列Si,其中i=1,2,......,m;得 到浏览人数BNi的数组{BNi1,BNi2,...,BNij,...},回帖人数Rni的数组{RNi1, RNi2,...,RNij,...},时间间隔序列Si的数组{Si1,Si2,...,Sij,...};

步骤(22)、计算浏览人数的热点阈值H(BN);

对于1≤i≤m,计算:

BNi=Σj=1nBNijn;]]>D(BNi)=BNi-Σj=1n(BNij-BNi)2;]]>H(BN)=Σi=1m(BNi-D(BNi))m;]]>

步骤(23)、计算回复人数的热点阈值H(RN);

对于1≤i ≤mRNi=Σj=1nRNijn;]]>

D(BNi)=BNi-Σj=1n(BNij-BNi)2;]]>

H(BN)=Σi=1m(BNi-D(BNi))m;]]>

步骤(24)、计算时间间隔热点阈值和D(S);

H(S)=Σi=1mSim;]]>D(S)=Σi=1mΣj=2n(Sij-Si)2m;]]>其中Si′={Si2,...,Sin},Si=Σj=2nSijn-1;]]>

步骤(25)、建立基于数值表现的热点预测模型;对于待检测舆情信息I′有:

<1>.计算Δt时间内,待检测舆情信息I′的浏览人数BN,若BN≥H(BN), 则待检测舆情信息I′为热点舆情信息,对热点舆情信息进行预警;否则进行下一 步运算;

<2>.计算Δt时间内,待检测舆情信息I′的回复人数RN,若RN≥H(RN), 则待检测舆情信息I′为热点舆情信息,对热点舆情信息进行预警;否则进行下一 步运算;

<3>.计算Δt时间内,待检测舆情信息I′的回复时间间隔序列S′={S1′, S2′,...,Sk′};若k<5,则回帖没有超过5个,待检测舆情信息I′为普通舆情; 若K≥5,则计算{S2′,...,Sk′}的和D(S′),若则待检测舆情信息I′为热点舆情信息,否则待检测舆情信息I′为普通舆情,终止 预测;

步骤(13)中所述Wij的值通过TFIDF公式计算:

Wij=TFIDF(Ti,Cj)=TF(Ti,Cj)*log|C||DF(Ti)|]]>

其中,Ti代表具有某一特征的关键词;Cj表示该关键词所在的类别文本; TF(Ti,Cj)表示Ti在Cj类中各个信息文档中出现的频率;|C|代表所有类别中的所 有训练信息文档的数目,即DF(Ti)表示包含关键词Ti的类数;

对每个类按照权重递减排序,选取前n个作为该类的代表,余下的作为备 选,此时每个类可以表示为:

Ci=(Ti1,Wi1;Ti2,Wi2;...;Tin,Win)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910214401.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top