[发明专利]一种文档共享平台的关键词推荐方法及系统无效
申请号: | 201010557250.7 | 申请日: | 2010-11-22 |
公开(公告)号: | CN102012915A | 公开(公告)日: | 2011-04-13 |
发明(设计)人: | 周德友;杨帆;孙鹤飞 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 共享 平台 关键词 推荐 方法 系统 | ||
【技术领域】
本发明涉及一种互联网领域,特别涉及一种文档共享平台的关键词推荐方法及系统。
【背景技术】
随着互联网的普及,搜索引擎的使用次数愈发频繁。目前的搜索引擎的关键词推荐仅限于用户输入检索词条时使用,并且只是将用户输入的关键词信息作为前缀去查找匹配的关键词集合,再根据关键词的历史查询次数排序。对于文档共享平台,在文档的提交过程中并没有相应的关键词推荐机制。此外,用户在提交文档过程中输入的更多信息在关键词推荐方面没有得到利用。
【发明内容】
本发明提供了一种文档共享平台的关键词推荐方法及系统,能够有效的利用用户所提供的信息,为用户推荐更加适用的关键词。
本发明提供了一种文档共享平台的关键词推荐方法,包括:a.获取用户针对待提交文档所输入的描述信息;b.获取关键词库;c.将待提交文档的描述信息与关键词库进行匹配,获取对应的关键词列表;d.输出关键词列表。
根据本发明一优选实施例,步骤b包括:b1.搜集文档共享平台中已经标记有关键词的多个已提交文档;b2.获取已提交文档的描述信息,组成已提交文档的描述向量;b3.根据已提交文档的描述向量对多个已提交文档进行聚类,获取每一聚类的聚类参数;b4.将对应于同一聚类参数的已提交文档的关键词聚合成一个关键词集合;b5.存储聚类参数与其所对应的关键词集合,以形成关键词库。
根据本发明一优选实施例,在步骤b3中,根据已提交文档的描述向量之间的距离关系对多个已提交文档进行聚类。
根据本发明一优选实施例,步骤c包括:c1.根据待提交文档的描述信息组成待提交文档的描述向量;c2.根据待提交文档的描述向量确定与待提交文档匹配的聚类参数;c3.根据与待提交文档匹配的聚类参数所对应的关键词集合形成关键词列表。
根据本发明一优选实施例,在步骤c2中,根据待提交文档的描述向量与各聚类参数之间的距离关系确定与待提交文档匹配的聚类参数。
根据本发明一优选实施例,步骤c进一步包括:c4.根据与待提交文档的描述信息的相似度对关键词列表中的关键词进行排序。
根据本发明一优选实施例,已提交文档的描述信息包括已提交文档的标题、摘要以及分类信息或者其中一或多个的组合。
根据本发明一优选实施例,待提交文档的描述信息包括待提交文档的标题、摘要以及分类信息或者其中一或多个的组合。
根据本发明一优选实施例,待提交文档的描述信息进一步包括关键词信息。
根据本发明一优选实施例,关键词推荐方法进一步包括:e.将用户从关键词列表中选择的关键词与待提交文档进行关联。
本发明实施例进一步提供了一种文档共享平台的关键词推荐系统,包括:用于获取用户针对待提交文档所输入的描述信息的第一描述信息获取模块;用于获取关键词库的关键词库获取模块;用于将待提交文档的描述信息与关键词库进行匹配,获取对应的关键词列表的匹配模块;用于输出关键词列表的输出模块。
根据本发明一优选实施例,关键词库获取模块包括:用于搜集文档共享平台中已经标记有关键词的多个已提交文档的关键词搜集模块;用于获取已提交文档的描述信息,组成已提交文档的描述向量的第二描述信息获取模块;用于根据已提交文档的描述向量对多个已提交文档进行聚类,获取每一聚类的聚类参数的聚类模块;用于将对应于同一聚类参数的已提交文档的关键词聚合成一个关键词集合的关键词聚合模块;用于存储聚类参数与其所对应的关键词集合以形成关键词库的存储模块。
根据本发明一优选实施例,聚类模块根据已提交文档的描述向量之间的距离关系对多个已提交文档进行聚类。
根据本发明一优选实施例,第一描述信息获取模块根据所述待提交文档的描述信息组成所述待提交文档的描述向量,匹配模块包括:用于根据待提交文档的描述向量确定与待提交文档匹配的聚类参数的聚类参数匹配模块;用于根据与所述待提交文档匹配的聚类参数所对应的关键词集合形成所述关键词列表的列表形成模块。
根据本发明一优选实施例,聚类参数匹配模块根据待提交文档的描述向量与各聚类参数之间的距离关系确定与待提交文档匹配的聚类参数。
根据本发明一优选实施例,匹配模块进一步包括:排序模块,用于根据与待提交文档的描述信息的相似度对关键词列表中的关键词进行排序。
根据本发明一优选实施例,已提交文档的描述信息包括已提交文档的标题、摘要以及分类信息或者其中一或多个的组合。
根据本发明一优选实施例,待提交文档的描述信息包括待提交文档的标题、摘要以及分类信息或者其中一或多个的组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010557250.7/2.html,转载请声明来源钻瓜专利网。