[发明专利]确定文档主题的方法、装置、存储介质及电子设备在审
申请号: | 201811584988.5 | 申请日: | 2018-12-24 |
公开(公告)号: | CN110046339A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 宝腾飞;李文峰;苏俊洋 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 崔家源;夏东栋 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 集合 预设 存储介质 电子设备 文档主题 筛选 数量降低 算法确定 预设算法 主题分布 准确率 保证 | ||
本公开公开了一种确定文档主题的方法、装置、存储介质及电子设备,方法包括:确定第一主题词集合中的各个文档词是否出现在预设主题词集合中,其中,第一主题词集合为预设文档中所有文档词的集合;获取出现在预设主题词集合中的文档词,以生成第二主题词集合;通过预设算法确定第二主题词集合中每个文档词对应的主题,得到预设文档的主题分布。本公开通过预设主题词集合对文档词进行筛选,通过该筛选,可以大大降低无用文档词的数量,当文档词数量降低后,采用任何一种算法确定主题都可以,保证了确定准确率增加很多,也保证了确定时间大大减少。
技术领域
本公开涉及机器学习领域,特别涉及一种确定文档主题的方法、装置、存储介质及电子设备。
背景技术
Topic Model是一种语义分析模型,不需要人工标注数据,通过在大语料上训练,自动学习出数千个Topic(主题),比如,有的Topic是讲历史的,有的Topic是讲科技的,每个Topic下通常都包括多个主题词;新数据可以在学习出的Topic空间里做出确定。LDA(Latent Dirichlet Allocation,文档主题生成模型)是TopicModel中众多模型中最为广泛使用的一个,通常的做法都是用大语料离线训练好Topic模型,再对新文章用模型确定出Topic 分布。
离线训练通常会用Gibbs采样方法(即吉布斯采样算法),因为这个方法能利用数据的稀疏性,大幅提高训练速度;但是确定阶段也使用Gibbs方法的话,由于Gibbs方法中存在随机因素,在文档词较多的情况下,会导致连续两次确定的结果不一致,存在结果不稳定的缺点;而使用VBEM算法的方法,虽然结果稳定,但如果文档词较多,则运行速度较慢,且容易收敛到局部最优解。
因此,无论采用哪种算法进行文档的Topic确定,都存在文档词的数据量过大,确定时间长或确定不准确的问题。
发明内容
有鉴于此,本公开实施例提出了一种确定文档主题的方法、装置、存储介质及电子设备,用以解决现有技术的如下问题:无论采用哪种算法进行文档的Topic确定,都存在文档词的数据量过大,确定时间长或确定不准确的问题。
一方面,本公开实施例提出了一种确定文档主题的方法,包括:确定第一主题词集合中的各个文档词是否出现在预设主题词集合中,其中,所述第一主题词集合为预设文档中所有文档词的集合;获取出现在所述预设主题词集合中的文档词,以生成第二主题词集合;通过预设算法确定所述第二主题词集合中每个文档词对应的主题,得到所述预设文档的主题分布。
在一个可选实施例中,所述预设算法至少包括以下之一:吉布斯采样算法、VBEM算法(变分贝叶斯期望最大化,variational Bayes expectation maximization)。
在一个可选实施例中,在所述预设算法为所述吉布斯采样算法和所述 VBEM算法的情况下,通过预设算法确定所述第二主题词集合中每个词对应的主题,得到所述预设文档的主题分布,包括:通过所述吉布斯采样算法确定所述第二主题词集合的主题分布,并根据所述主题分布获取落入每个主题的文档词,以生成第三主题词集合;通过所述VBEM算法确定所述第三主题词集合的主题分布,以得到所述预设文档的主题分布。
在一个可选实施例中,所述吉布斯采样算法为SparseLDA(稀少的文档主题生成模型)。
另一方面,本公开实施例提出了一种确定文档主题的装置,包括:确定模块,用于确定第一主题词集合中的各个文档词是否出现在预设主题词集合中,其中,所述第一主题词集合为预设文档中所有文档词的集合;获取模块,用于获取出现在所述预设主题词集合中的文档词,以生成第二主题词集合;确定模块,用于通过预设算法确定所述第二主题词集合中每个文档词对应的主题,得到所述预设文档的主题分布。
在一个可选实施例中,所述预设算法至少包括以下之一:吉布斯采样算法、VBEM算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811584988.5/2.html,转载请声明来源钻瓜专利网。