[发明专利]文档主题确定方法及相关设备在审
申请号: | 201810350016.3 | 申请日: | 2018-04-18 |
公开(公告)号: | CN110390092A | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 郑胤;黄俊洲 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中间参数 文档主题 目标文档 概率分布模型 神经网络模型 存储介质 确定装置 权重 算法 折棍 申请 应用 保证 | ||
本申请提供了一种文档主题的确定方法,该方法可以将目标文档输入到预先训练得到的神经网络模型中,以获得第一中间参数,第一中间参数可以通过概率分布模型得到第二中间参数,进而第二中间参数通过折棍算法求得目标文档的主题权重。另外,本申请还提供了一种文档主题确定装置及存储介质,用以保证所述方法在实际中的应用及实现。
技术领域
本申请涉及文本分析技术领域,更具体地,是文档主题确定方法及相关设备。
背景技术
文档,是一种信息承载体,通过分析可以确定其所承载信息的主要内容,该主要内容可以称为文档的主题。文档主题可以通过组成文档的单词的词频体现出来。例如,一篇文档是讲述经济学的内容,那么其主题可能会被确定为“经济”,且“货币”、“财政”、“成本”及“收益”等单词出现的频率就会很高;又如,一篇文档是讲述战争的,那么其主题可能会被确定为“战争”,且“武器”、“破坏”、“飞机”及“坦克”等单词出现的频率也会很高。
所确定的主题对于文档的分析等具有重要意义,因此需要一种技术方案,用于确定文档所包含的主题。
发明内容
有鉴于此,本申请提供了一种文档主题确定方法,用于确定文档所包含的主题。
为实现所述目的,本申请提供的技术方案如下:
第一方面,本申请提供了一种文档主题的确定方法,包括:
获得目标文档及神经网络模型,所述神经网络模型用于在模型参数的限制下得到预设数量的第一中间参数;
将所述目标文档输入至所述神经网络模型中,得到第一中间参数;
将所述第一中间参数输入至概率分布模型中,得到第二中间参数的概率密度函数;
从所述第二中间参数的概率密度函数中采样得到目标第二中间参数;
将所述目标第二中间参数输入至折棍算法中,得到所述目标文档的主题权重。
第二方面,本申请提供了一种文档主题的确定装置,包括:
文档及模型获得单元,用于获得目标文档及神经网络模型,所述神经网络模型用于在模型参数的限制下得到预设数量的第一中间参数;
第一中间参数获得单元,用于将所述目标文档输入至所述神经网络模型中,得到第一中间参数;
概率密度函数得到单元,用于将所述第一中间参数输入至概率分布模型中,得到第二中间参数的概率密度函数;
第二中间参数获得单元,用于从所述第二中间参数的概率密度函数中采样得到目标第二中间参数;
主题权重确定单元,用于将所述目标第二中间参数输入至折棍算法中,得到所述目标文档的主题权重。
第三方面,本申请提供了一种文档主题的确定设备,包括:存储器及处理器;所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据,至少执行如下步骤:
获得目标文档及神经网络模型,所述神经网络模型用于在模型参数的限制下得到预设数量的第一中间参数;
将所述目标文档输入至所述神经网络模型中,得到第一中间参数;
将所述第一中间参数输入至概率分布模型中,得到第二中间参数的概率密度函数;
从所述第二中间参数的概率密度函数中采样得到目标第二中间参数;
将所述目标第二中间参数输入至折棍算法中,得到所述目标文档的主题权重。
第四方面,本申请提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,执行上述文档主题的确定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810350016.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种排版文档生成方法、装置及设备
- 下一篇:一种语言模型建立方法及装置