[发明专利]一种文档共享平台的关键词推荐方法及系统无效
申请号: | 201010557250.7 | 申请日: | 2010-11-22 |
公开(公告)号: | CN102012915A | 公开(公告)日: | 2011-04-13 |
发明(设计)人: | 周德友;杨帆;孙鹤飞 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 共享 平台 关键词 推荐 方法 系统 | ||
1.一种文档共享平台的关键词推荐方法,其特征在于,包括:
a.获取用户针对待提交文档所输入的描述信息;
b.获取关键词库;
c.将所述待提交文档的描述信息与所述关键词库进行匹配,获取对应的关键词列表;
d.输出所述关键词列表。
2.根据权利要求1所述的关键词推荐方法,其特征在于,所述步骤b包括:
b1.搜集所述文档共享平台中已经标记有关键词的多个已提交文档;
b2.获取所述已提交文档的描述信息,组成所述已提交文档的描述向量;
b3.根据所述已提交文档的描述向量对所述多个已提交文档进行聚类,获取每一聚类的聚类参数;
b4.将对应于同一聚类参数的所述已提交文档的关键词聚合成一个关键词集合;
b5.存储所述聚类参数与其所对应的所述关键词集合,以形成所述关键词库。
3.根据权利要求2所述的关键词推荐方法,其特征在于,在所述步骤b3中,根据所述已提交文档的描述向量之间的距离关系对所述多个已提交文档进行聚类。
4.根据权利要求2所述的关键词推荐方法,其特征在于,所述步骤c包括:
c1.根据所述待提交文档的描述信息组成所述待提交文档的描述向量;
c2.根据所述待提交文档的描述向量确定与所述待提交文档匹配的聚类参数;
c3.根据与所述待提交文档匹配的聚类参数所对应的关键词集合形成所述关键词列表。
5.根据权利要求4所述的关键词推荐方法,其特征在于,在所述步骤c2中,根据所述待提交文档的描述向量与各聚类参数之间的距离关系确定与所述待提交文档匹配的聚类参数。
6.根据权利要求4所述的关键词推荐方法,其特征在于,所述步骤c进一步包括:c4.根据与所述待提交文档的描述信息的相似度对所述关键词列表中的关键词进行排序。
7.根据权利要求2所述的关键词推荐方法,其特征在于,所述已提交文档的描述信息包括所述已提交文档的标题、摘要以及分类信息或者其中一或多个的组合。
8.根据权利要求1所述的关键词推荐方法,其特征在于,所述待提交文档的描述信息包括所述待提交文档的标题、摘要以及分类信息或者其中一或多个的组合。
9.根据权利要求8所述的关键词推荐方法,其特征在于,所述待提交文档的描述信息进一步包括关键词信息。
10.根据权利要求1所述的关键词推荐方法,其特征在于,所述关键词推荐方法进一步包括:
e.将用户从所述关键词列表中选择的关键词与所述待提交文档进行关联。
11.一种文档共享平台的关键词推荐系统,其特征在于,包括:
第一描述信息获取模块,用于获取用户针对待提交文档所输入的描述信息;
关键词库获取模块,用于获取关键词库;
匹配模块,用于将所述待提交文档的描述信息与所述关键词库进行匹配,获取对应的关键词列表;
输出模块,用于输出所述关键词列表。
12.根据权利要求11所述的关键词推荐系统,其特征在于,所述关键词库获取模块包括:
文档搜集模块,用于搜集所述文档共享平台中已经标记有关键词的多个已提交文档;
第二描述信息获取模块,用于获取所述已提交文档的描述信息,组成所述已提交文档的描述向量;
聚类模块,用于根据所述已提交文档的描述向量对所述多个已提交文档进行聚类,获取每一聚类的聚类参数;
关键词聚合模块,用于将对应于同一聚类参数的所述已提交文档的关键词聚合成一个关键词集合;
存储模块,用于存储所述聚类参数与其所对应的所述关键词集合,以形成的关键词库。
13.根据权利要求12所述的关键词推荐系统,其特征在于,所述聚类模块根据所述已提交文档的描述向量之间的距离关系对所述多个已提交文档进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010557250.7/1.html,转载请声明来源钻瓜专利网。