[发明专利]一种基于平滑短语主题模型的主题提取方法及装置有效
申请号: | 201911421842.3 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111178048B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 郭佳;张景鹏;徐路;李油;赵小琦 | 申请(专利权)人: | 微梦创科网络科技(中国)有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/2458 |
代理公司: | 北京卓岚智财知识产权代理有限公司 11624 | 代理人: | 蔡永波 |
地址: | 100193 北京市海淀区东北旺西路中关村*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 平滑 短语 主题 模型 提取 方法 装置 | ||
1.一种基于平滑短语主题模型的主题提取方法,其特征在于,包括:
提取待处理数据集内的有效词,得到预处理数据集;
通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集,并通过Apriori关联算法更新频繁短语数据集;根据频繁短语出现频率的高斯分布特性,将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集;
通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题;
所述通过Apriori关联算法自预处理数据集中提取出频繁短语,形成频繁短语数据集,具体包括:
所述预处理数据集包括文本级别的数据集,当所述文本级别的数据集中某个词出现的次数大于Apriori算法中的最小支持度,则设定该词为频繁短语,生成频繁短语数据集;
所述通过Apriori关联算法更新频繁短语数据集,具体包括:
标记每个频繁短语在所述文本级别的数据集中的所在位置;
检测文本级别的数据集中是否包含预设长度的频繁短语,当包含预设长度的频繁短语时则保留该文本级别的数据集;否则删除该文本级别的数据集;以及,
在保留的文本级别的数据集中,针对同一长度的频繁短语,根据频繁短语所在位置,当与该频繁短语一侧相邻的短语也为频繁短语时,将频繁短语与该相邻的短语合成为第一级短语,当第一级短语达到最小支持度时,将该第一级短语添加到频繁短语数据集内,并将该第一级短语对应的两个相邻的频繁短语从频繁短语数据集中删除;重复循环将频繁短语与相邻的短语合成第一级短语直到第一级短语不满足最小支持度,完成对频繁短语数据集的更新;
将预处理数据集中符合预设要求的相邻的频繁短语合成新的短语,并将新的短语加入到频繁短语数据集,形成候选短语数据集,具体包括:
获取文本级别的数据集中两个相邻的频繁短语并将该两个频繁短语合为第二级短语,计算该第二级短语在文本级别的数据集中的重要度,所述重要度为该两个频繁短语在文本级别的数据集中相同位置出现的概率;
当重要度不小于预设的第一阈值时,将该第二级短语添加到频繁短语数据集,并删除该两个相邻的频繁短语;
循环将两个相邻的频繁短语合为一个第二级短语的操作,直到任何两个相邻的频繁短语合成的第二级短语的重要度小于预设的第一阈值,得到候选短语数据集。
2.根据权利要求1所述的基于平滑短语主题模型的主题提取方法,其特征在于,通过SPLDA平滑短语主题模型对候选短语数据集进行分析,得到主题短语,通过主题短语形成相应的话题,具体包括:
通过SPLDA平滑短语主题模型计算候选短语在不同主题下的概率,当该候选短语在某主题中的概率不小于第二阈值时,将该候选短语作为主题短语,通过该主题短语形成相应的话题。
3.根据权利要求2所述的基于平滑短语主题模型的主题提取方法,其特征在于,还包括:计算候选短语中的词在主题下的概率分布的标准差,通过词的标准差修正该候选短语在不同主题下的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微梦创科网络科技(中国)有限公司,未经微梦创科网络科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911421842.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种时序数据的压缩方法、装置以及设备
- 下一篇:一种路灯灯具标识采集系统