[发明专利]文档主题确定方法及相关设备在审
申请号: | 201810350016.3 | 申请日: | 2018-04-18 |
公开(公告)号: | CN110390092A | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 郑胤;黄俊洲 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中间参数 文档主题 目标文档 概率分布模型 神经网络模型 存储介质 确定装置 权重 算法 折棍 申请 应用 保证 | ||
1.一种文档主题的确定方法,其特征在于,包括:
获得目标文档及神经网络模型,所述神经网络模型用于在模型参数的限制下得到预设数量的第一中间参数;
将所述目标文档输入至所述神经网络模型中,得到第一中间参数;
将所述第一中间参数输入至概率分布模型中,得到第二中间参数的概率密度函数;
从所述第二中间参数的概率密度函数中采样得到目标第二中间参数;
将所述目标第二中间参数输入至折棍算法中,得到所述目标文档的主题权重。
2.根据权利要求1所述的文档主题的确定方法,其特征在于,所述神经网络模型的训练过程包括:
将文档样本输入至神经网络模型中,得到所述神经网络模型的第一中间参数;
将所述神经网络模型的第一中间参数输入至概率分布模型中,得到所述神经网络模型的第二中间参数;
将所述神经网络模型的第二中间参数输入至折棍算法中,得到所述文档样本的主题权重值;
将所述文档样本的主题权重值输入至文档生成模型中,得到所述文档样本中每个单词的出现概率,并依据所述出现概率计算所述文档样本的生成概率;
判断所述文档样本的生成概率是否满足目标函数对应的优化目标;
若所述文档样本的生成概率不满足所述优化目标,则调整所述神经网络模型的模型参数及所述文档生成模型的参数,并返回将新的文档样本输入至调整模型参数的神经网络模型中,得到调整模型参数的神经网络模型的第一中间参数;
若所述文档样本的生成概率满足所述优化目标,则将调整模型参数的神经网络模型作为训练得到的神经网络模型。
3.根据权利要求2所述的文档主题的确定方法,其特征在于,所述目标函数对应的公式为:
其中,L(W1:N|Φ,ψ)表示目标函数;W1:N表示文档样本的词袋模型,其中N表示文档样本中的单词个数;φ表示文档生成模型中的参数;ψ表示神经网络的参数;E表示期望,qψ(v|w1:N)表示向量v的概率密度函数;p(W1:N|π,Φ)表示依据文档生成模型及神经网络得到的文档样本生成概率;KL为相对熵,表示的是概率密度函数qψ(v|w1:N)与概率密度函数p(v|α)之间的距离,α为GEM分布的集中参数;
相应地,所述判断所述文档样本的生成概率是否满足所述优化目标,包括:
判断所述文档样本的生成概率输入至所述目标函数对应的公式后得到的值是否满足预设的训练结束条件。
4.根据权利要求3所述的文档主题的确定方法,其特征在于,所述调整所述神经网络模型的模型参数及所述文档生成模型的参数,包括:
使用反向梯度传播算法,调整所述神经网络模型的模型参数及所述文档生成模型的参数。
5.根据权利要求1所述的文档主题的确定方法,其特征在于,所述将所述目标第二中间参数输入至折棍算法中,得到所述目标文档的主题权重,包括:
将所述目标第二中间参数输入至折棍算法中,得到各个备选的主题权重;
将满足预设条件的主题权重作为所述目标文档的主题权重。
6.一种文档主题的确定装置,其特征在于,包括:
文档及模型获得单元,用于获得目标文档及神经网络模型,所述神经网络模型用于在模型参数的限制下得到预设数量的第一中间参数;
第一中间参数获得单元,用于将所述目标文档输入至所述神经网络模型中,得到第一中间参数;
概率密度函数得到单元,用于将所述第一中间参数输入至概率分布模型中,得到第二中间参数的概率密度函数;
第二中间参数获得单元,用于从所述第二中间参数的概率密度函数中采样得到目标第二中间参数;
主题权重确定单元,用于将所述目标第二中间参数输入至折棍算法中,得到所述目标文档的主题权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810350016.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种排版文档生成方法、装置及设备
- 下一篇:一种语言模型建立方法及装置