[发明专利]一种基于平滑短语主题模型的主题提取方法及装置有效
申请号: | 201911421842.3 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111178048B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 郭佳;张景鹏;徐路;李油;赵小琦 | 申请(专利权)人: | 微梦创科网络科技(中国)有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/2458 |
代理公司: | 北京卓岚智财知识产权代理有限公司 11624 | 代理人: | 蔡永波 |
地址: | 100193 北京市海淀区东北旺西路中关村*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 平滑 短语 主题 模型 提取 方法 装置 | ||
本发明实施例提供一种基于平滑短语主题模型的主题提取方法及装置,包括:提取待处理数据集内的有效词,得到预处理数据集;通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集;根据频繁短语出现频率的高斯分布特性,将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集;通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题。通过平滑短语主题模型对候选短语数据集进行分析得到主题短语,通过主题短语形成相应的话题,提高了话题的可读性,更准确地表述了话题的真实信息。
技术领域
本发明涉及数据挖掘领域,具体涉及一种基于平滑短语主题模型的主题提取方法及装置。
背景技术
随着互联网的快速发展,微博、微信和头条等社交平台成为了信息传播和用户发布言论的主流媒介。微博凭借平台开放性、资讯时效性、内容简洁并且覆盖领域广等特点,吸引了越来越多的用户,逐渐成为网民获取新闻、人际交往、发布言论和参与社会事件讨论的重要途径以及反映社会舆论的重要平台。
常见的微博热搜话题通常使用人工标注的短语来描述,如表1所示。
表1微博热搜话题
在实现本发明过程中,申请人发现现有技术中至少存在如下问题:
现有话题发现方法大多基于词袋模型进行特征抽取,未考虑短语中词之间的关联信息,会造成部分有效信息丢失,且此类方法用孤立的词表示话题,导致话题表述可读性差、存在歧义,无法准确反映话题的真实信息。例如,话题1的数据经过挖掘的结果为“太阳、韩国、宋慧乔等”,难以得到如“太阳的后裔”这种短语描述的结果,话题理解性有待提高。
发明内容
本发明实施例提供一种基于平滑短语主题模型的主题提取方法及装置,通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题,提高了话题的可读性,更准确地表述了话题的真实信息。
为达上述目的,一方面,本发明实施例提供一种基于平滑短语主题模型的主题提取方法,包括:
提取待处理数据集内的有效词,得到预处理数据集;
通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集,并通过Apriori关联算法更新频繁短语数据集;根据频繁短语出现频率的高斯分布特性,将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集;
通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题。
另一方面,本发明实施例提供一种基于平滑短语主题模型的主题提取装置,包括:
预处理模块:用于提取待处理数据集内的有效词,得到预处理数据集;
短语提取模块:用于通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集,并通过Apriori关联算法更新频繁短语数据集;根据频繁短语出现频率的高斯分布特性,将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集;
主题生成模块:用于通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题。
上述技术方案具有如下有益效果:利用Apriori关联算法生成频繁短语,结合文本的高斯分布特性生成高质量的候选短语能够快速收敛得到候选短语。基于平滑短语主题模型的微博话题使用文本的高斯分布特性挖掘候选短语,通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微梦创科网络科技(中国)有限公司,未经微梦创科网络科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911421842.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种时序数据的压缩方法、装置以及设备
- 下一篇:一种路灯灯具标识采集系统