[发明专利]基于社交文本的网络舆情话题识别方法和系统有效

专利信息
申请号: 202010150112.0 申请日: 2020-03-06
公开(公告)号: CN111506785B 公开(公告)日: 2023-07-07
发明(设计)人: 姜元春;张吉;孙见山;任祖杰;单海军;刘心语;钱洋;梁瑞成 申请(专利权)人: 之江实验室;合肥工业大学
主分类号: G06F16/9032 分类号: G06F16/9032;G06F16/951;G06F40/284;G06N7/01;G06Q50/00;G06Q50/26
代理公司: 北京久诚知识产权代理事务所(特殊普通合伙) 11542 代理人: 余罡
地址: 310000 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 社交 文本 网络 舆情 话题 识别 方法 系统
【权利要求书】:

1.一种基于社交文本的网络舆情话题识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:

S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量,包括:

S101、获取|M|条社交文本构成的文本集合D,记为|M|表示文本集合D中的文本数量,一个用户对应一条文本;

S102、对所述文本集合D进行预处理;

S103、基于预处理后的文本集合D建立向量1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmi表示第m个用户文本中的第i个词,Nm表示第m个用户文本中的单词数;

S104、确定文本集合D中的主题个数K;

S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:

S201、基于文本集合D中的K个主题,按照公式(1)进行采样从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布和噪声词分布

式(1)中:

β和β'是狄利克雷分布的超参数;

S202、对于每个用户的文本m∈{1,2,...,M},按照公式(2)建立文本-主题分布,用向量表示;

式(2)中:

α是狄利克雷分布的超参数;

表示用户文本m中对应的主题分布,服从参数为α的狄利克雷分布;

S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;

式(3)中:

服从参数为γ,γ'的Beta分布,用于选择主题-单词分布,与构成Beta-Multinomial共轭;

cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,

式(4)中,

zmn服从多项式分布,表示第m条文本的第n个词的主题编号;

当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的;

S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:

S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:

S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:

式(5)中:

z-(mn)指除单词wmn外所有单词对应的主题编号;

表示当cmn=1时,单词v被分配到主题k上的次数;

表示当cmn=1时,被分配到主题k上的所有单词数;

表示第m个用户文本中被分配到主题k上的单词数;

所有带有公式-(mn)的计数均表示去除了单词wmn

γ,γ'表示Beta分布的参数;

S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;

式(6)中:

表示所有由噪声词分布生成的单词数,去除单词wmn

表示所有由主题词分布生成的单词数,去除单词wmn

表示噪声词分布生成单词v的次数,去除单词wmn

表示噪声词分布生成所有词的次数,去除单词wmn

表示c=0时表示所有由噪声词分布生成的单词数,去除单词wmn;c=1时表示所有由主题词分布生成的单词数,去除单词wmn

表示cmn=1时,单词v被分配到主题k上的次数,除去单词单词wmn

表示噪声词分布生成所有词的次数;

所有带有公式-(mn)的计数均表示去除了单词wmn

S302、为S301中两个潜在参数zmn和cmn随机初始化值;

S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;

S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数;

S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;合肥工业大学,未经之江实验室;合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010150112.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top