[发明专利]基于粒子模型话题分析算法的便携式网络舆情分析系统有效

专利信息
申请号: 201810154155.9 申请日: 2018-02-22
公开(公告)号: CN108304571B 公开(公告)日: 2020-10-09
发明(设计)人: 唐欢容;欧阳建权;王邵华;曾旭东;阿嘎尔 申请(专利权)人: 湘潭大学
主分类号: G06F16/951 分类号: G06F16/951;G06F16/906;G06Q50/00
代理公司: 北京卓恒知识产权代理事务所(特殊普通合伙) 11394 代理人: 徐楼
地址: 411105 *** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 粒子 模型 话题 分析 算法 便携式 网络 舆情 系统
【权利要求书】:

1.一种基于粒子模型话题分析算法的网络舆情分析方法,其特征在于:包括如下步骤,

第一步:互联网数据获取和预处理

a.搭建hadoop集群,运用网络爬虫技术来获取当前互联网网页数据;

b.对网页数据根据中科院的中文分词系统进行基于元组切的自然语言处理得到最能概括该样本的特征词同时通过调用系统接口也得出相应的特征词权值;

c.创建特征词权值表;

第二步:粒子模型前期准备工作

a.AC自动机对特征词权值表通过特征词的相互匹配从而求得每一个特征词出现的频率进而获得特征词的IDF权值以及样本相互间根据特征词的关联系数;

b.通过如下方式得到训练语料库中特征词的相值G(x,y),

G(x,y)=F(x,y)*C(x,y)*T(x,y);

F(x,y)=(Q(x)+Q(y))*Co;

Q(x)=特征词x按照tf-idf权值计算公式得到的权值;

Q(y)=特征词y按照tf-idf权值计算公式得到的权值;

C(x,y)=sin(N(i,j)/U(i,j)*(pi/2))*|mat[x,y]/sum(mat(x))|;

T(x,y)=2^((Q(x)+Q(y))/(max(i)+max(j))-1);

其中,x,y分别为特征词,Co为常数值,N(i,j)为样本i,j特征词的交集,U(i,j)为样本i,j特征词的并集,mat[x,y]为特征词x,y的矩阵值,sum(mat(x))为特征词x该行矩阵值之和,max(i)为样本i所有权值因子之和,Pi是圆周率,并得到特征词相似表;

第三步:粒子模型算法

a.第一步c小步得到的特征词权值表进行AC自动机匹配,根据是否拥有相同特征词来进行连接,并得到样本间的相关系数,然后将相关系数排序,对应的样本索引作为与之相对应的归属数组,样本粒子i的归属数组为[k,l,j,m,n,o],并根据阈值t1来截取一定长度的归属数组作为最后的归属数组Array(i),从而便可以将数组中索引的样本粒子连接起来组成一张连通图,随机选取N个起始分类中心点,将与中心点有相关关系的其他样本索引作为下一层的中心点采用广度遍历的方式实现组成样本粒子簇;

b.对簇中粒子根据第二步a小步得到的IDF权值和第一步b小步得到的权值计算出tf-idf权值,并根据余弦公式可以求得样本粒子间的相似度sim,从而构建出VSM模型,tf-idf和余弦计算公式如下:

其中,Wij为词向量权重,tfij为特征项在报道中出现的次数,N为当前话题的文档集,ni为包含该特征项的报道数,m为特征项个数;

c.运用拉普拉斯矩阵向量特征分解求出VSM模型的特征向量从而实现降维处理;

d.将前一小步得到的结果进行Kmeans++算法操作,从而得到簇中每一个样本粒子到聚类中心的距离权值;再根据自定义的分类语料集对簇中样本粒子进行分类并按照泊松加权得到属性权值;根据向量平行四边形法则将距离权值向量与属性权值向量相加得到最后的聚类权值;

e.将上一步的权值降序排列,根据其索引得到样本粒子的特征词集合,根据第二步b小步得到的特征词相似表来求得集合中每一个特征词最后权值,权值降序排列后得到话题的关键词,通过由特征词反馈文本将聚类权值重新安排;

f.判断是否处理完所有的簇,是则继续执行g小步,否则接着执行第三步b小步;

g.进行热度计算,使用计算簇的信息嫡加权,得到每一个样本的权值和,得出最后的舆情话题分析结果。

2.根据权利要求1所述的基于粒子模型话题分析算法的网络舆情分析方法,其特征在于:第一步b小步所述的特征词数量为1至11个。

3.根据权利要求1所述的基于粒子模型话题分析算法的网络舆情分析方法,其特征在于:所述的Co取值范围为0.50-0.57。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学,未经湘潭大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810154155.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top