[发明专利]微博数据流演化主题建模文档聚类解析法在审
申请号: | 202110456368.9 | 申请日: | 2021-04-26 |
公开(公告)号: | CN112989799A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 扆亮海;何克慧 | 申请(专利权)人: | 扆亮海 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289;G06K9/62;G06F16/951;G06F16/955 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 325300 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据流 演化 主题 建模 文档 解析 | ||
1.微博数据流演化主题建模文档聚类解析法,其特征在于,基于微博流式数据的文档发掘任务,提出一种焦点主题模型TfLDA,实现微博文档数据流中的文档聚类与演化主题分析,焦点主题模型TfLDA的架构为:第一,基于微博文档的多属性特征计分策略,对数据流进行分片筛选,形成优质微博文档;第二,采用在线驱动LDA的训练方式提取每片优质文档的潜在主题;第三,通过联合训练的谱聚类及主题推算的方式,实现潜在主题的快速聚合,形成焦点主题;第四,基于提出的焦点主题模型TfLDA,计算焦点主题与优质文档之间的相似度,并根据相似度将文档归属于对应的焦点主题,实现优质文档的聚类;第五,再通过追踪焦点主题在时间序列上的变化情况,实现主题的演化分析;
首先基于微博的多属性进行计分,完成优质微博文档的提取,然后采用在线驱动LDA的方式得到文档集中的潜在主题,并通过联合训练的谱聚类及主题推算方法提炼出焦点主题;基于数据流的焦点主题提取模型TfLDA包括,首先,采用EM算法估算每条微博的各个特征的权值,以此对微博进行计分,从中提取优质的微博文档;其次,从小规模的优质微博文档集入手,基于在线LDA得到每个时刻下的潜在主题;然后提出合作学习的谱聚类算法以及基于时间窗口的主题推算,完成焦点主题的提取;最后,基于焦点主题,将优质短文档依据与焦点主题的相似度划分到对应的文档聚簇中以实现聚类;再结合焦点主题的各个要素在时间序列上的变化进行演化分析;
微博文档数据流中的TfLDA:基于在线驱动LDA模型,在基于数据流的TfLDA模型中,将数据片的先验知识运用到当前数据片的计算中,即r时刻下的数据片的焦点主题由r时刻下的时间窗口中的之前的数据片的焦点主题推算得出;对于r时刻下潜在主题的词汇分布矩阵Yr,首先基于TfLDA方法估算焦点主题的个数tr,当前数据片与前一数据片之间语义关联性强,直接在r-1时刻的焦点主题中选取tr个主题作为当前焦点主题矩阵的初始值,进一步考虑以下几种情况:
第一,r-1时刻下的焦点主题数tr-1小于tr;需要向前回溯一个数据片选取主题,若还不够则继续在时间窗口中向前回溯,直至选取的主题数为tr个为止;
第二,r-1时刻下的焦点主题数tr-1等于tr;直接选取r-1下的所有焦点主题SYr-1作为r时刻下焦点主题矩阵的初始值;
第三,r-1时刻下的焦点主题数tr-1大于tr:统计r-1时刻下的这tr-1个焦点主题的强度,即该焦点主题所包含的潜在主题的个数,选取强度最高的前tr个作为r时刻下焦点主题矩阵的初始值;
根据上述三种不同的情况,将r时刻下的焦点主题矩阵初始化,设初始化矩阵为然后,对于r时刻下的所有潜在主题,计算其与该初始化矩阵中的每个初始焦点主题之间的相似度,将每个潜在主题归到与其最相似的焦点主题,形成聚类,再对每个聚类求聚类中心,得到r时刻下的tr个焦点主题构成的矩阵对潜在主题与初始焦点主题之间的相似度设置一个临界值f,对于与任意一个初始焦点主题的相似度均小于f的潜在主题,即认为是当前时刻下新出现的潜在主题,对这些新潜在主题直接进行谱聚类得到新焦点主题NSYr,聚类的个数由TfLDA方法估算,若新出现的焦点主题的个数为ntr,则将中的强度最小的ntr个焦点主题剔除,而将ntr个新焦点主题加入,形成r时刻下的tr个焦点主题所构成的矩阵SYr;对于数据流起始阶段的一个时间窗口的数据片,采用联合训练的谱聚类方式得到焦点主题,而对于之后的每一个数据片,通过其所在的时间窗口中的其余数据片的焦点主题推算得到,平均每p个数据片中有1个需要用联合训练的谱聚类方式得到焦点主题,p为1个时间窗口中的数据片个数,其余p-1个数据片的焦点主题通过推算得出,保证任意一个时间窗口中,至少有1个数据片的焦点主题是由联合训练谱聚类的方式得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扆亮海,未经扆亮海许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110456368.9/1.html,转载请声明来源钻瓜专利网。