[发明专利]文档主题挖掘方法及装置有效
申请号: | 201510566787.2 | 申请日: | 2015-09-08 |
公开(公告)号: | CN105243083B | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 姜迪;石磊 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 主题 挖掘 方法 装置 | ||
1.一种文档主题挖掘方法,其特征在于,包括以下步骤:
根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;
根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;
生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词;
所述获取句子中每个词在所述每个主题中的隶属权重之后,还包括:
获取预设时间内的搜索查询日志;
根据所述搜索查询日志生成共现关系矩阵,所述共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次;
根据预先存储的所述共现关系矩阵,更新所述句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性。
2.如权利要求1所述的文档主题挖掘方法,其特征在于,所述获取每个文档中每个句子隐含的每个主题的后验估计之后,还包括:
根据所述每个主题的后验估计获取每个主题在每个文档中的隶属权重。
3.如权利要求1或2所述的文档主题挖掘方法,其特征在于,还包括:
若判断获知输入的文档数量大于预设的阈值,则对所有文档进行切分,并存储到分布式系统架构Hadoop平台中,以便采用映射归纳编程模型对文档中的信息进行并行处理。
4.一种文档主题挖掘装置,其特征在于,包括:
处理模块,用于根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;
第一获取模块,用于根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;
第一生成模块,用于生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词;
更新模块,用于在获取句子中每个词在所述每个主题中的隶属权重之后,根据预先存储的共现关系矩阵,更新所述句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性;
第二获取模块,用于在更新所述句子中每个词在所述每个主题中的隶属权重之前,获取预设时间内的搜索查询日志;
第二生成模块,用于根据所述搜索查询日志生成共现关系矩阵,所述共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次。
5.如权利要求4所述的文档主题挖掘装置,其特征在于,
所述第一获取模块,还用于在获取每个文档中每个句子隐含的每个主题的后验估计之后,根据所述每个主题的后验估计获取每个主题在每个文档中的隶属权重。
6.如权利要求4或5所述的文档主题挖掘装置,其特征在于,
所述处理模块,还用于若判断获知输入的文档数量大于预设的阈值,则对所有文档进行切分,并存储到分布式系统架构Hadoop平台中,以便采用映射归纳编程模型对文档中的信息进行并行处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510566787.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防止产品颈部断裂的注浆成型模具
- 下一篇:弓形板组件压接弹簧用工装夹具