[发明专利]文档主题挖掘方法及装置有效
申请号: | 201510566787.2 | 申请日: | 2015-09-08 |
公开(公告)号: | CN105243083B | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 姜迪;石磊 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提出一种文档主题挖掘方法和装置,其中,该方法包括:根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词。实现了基于PLSA算法更加全面精确的挖掘文档主题,提高了文档主题内容的相关性,从而使搜索引擎的结果更接近文档的语义信息。 | ||
搜索关键词: | 文档 主题 挖掘 方法 装置 | ||
【主权项】:
1.一种文档主题挖掘方法,其特征在于,包括以下步骤:根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词;所述获取句子中每个词在所述每个主题中的隶属权重之后,还包括:获取预设时间内的搜索查询日志;根据所述搜索查询日志生成共现关系矩阵,所述共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次;根据预先存储的所述共现关系矩阵,更新所述句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510566787.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种防止产品颈部断裂的注浆成型模具
- 下一篇:弓形板组件压接弹簧用工装夹具