[发明专利]一种文档资源建议词的挖掘方法和装置有效
申请号: | 201310306623.7 | 申请日: | 2013-07-19 |
公开(公告)号: | CN103425748A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 李国洪;潘欣婷;陈庆轩 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 罗朋;赵晶 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 资源 建议 挖掘 方法 装置 | ||
技术领域
本发明涉及网络文档资源库技术领域,尤其涉及一种文档资源建议词的挖掘技术。
背景技术
当前的多种网络文档资源库,如百度文库、新浪爱问共享资料、豆丁网等,一般通过用户上传文档的方式来不断丰富文档资源库。然而,在用户进行文档资源搜索的查询信息中,存在着具有文档资源需求但没有被满足的查询信息,例如某某作文、某某歌曲的吉他谱等,这些查询信息自身描述了明确的文档资源需求或者涵盖了泛化的文档资源需求表述,通过对这部分未满足需求的查询信息的挖掘,可有针对性的引导用户在上传文档资源采用这些查询信息作为文档资源的标题或标签,从而一方面有效地提升了用户搜索文档资源时搜索结果的命中率,同时提升了用户的文档搜索满意度,另一方面也提高了文档资源建设的效率,同时降低了成本。
然而,现有技术多通过人工抽样分析来对未满足用户需求的查询信息进行挖掘和分析。例如,在一定的时间周期内,人工从用户的查询信息中抽样,并参照文档资源库中已有文档资源,挖掘、分析出未被满足需求的查询信息,并且以此为基础,分析这些需求未被满足的查询信息中涵盖的大部分用户的文档需求类型,如驾照考试资料、小学作文等。
对于现有用户未满足需求挖掘、分析,基本属于长周期人工分析的原始方式,人力投入成本过大,而且随着用户上传文档的快速增长,人工分析的时间延迟和人工成本成为制约,而目前尚缺乏有效的数据挖掘和分析方法来获得未满足需求的查询信息,进而影响快速地、有针对性地根据用户需求对文档资源库中文档资源的建设。
发明内容
本发明的目的是提供一种文档资源建议词的挖掘方法和装置。
根据本发明的一个方面,提供了一种文档资源建议词的挖掘方法,其中,该方法包括:
a获取具有文档资源需求的第一文档需求信息;
b计算所述第一文档需求信息与文档资源库中文档内容标识信息的相似度,以获得其中相似度低于预定相似度阈值的第二文档需求信息;
c对所述第二文档需求信息进行聚合处理,以获得与所述第二文档需求信息相对应的文档资源建议词。
根据本发明的另一个方面,还提供了一种文档资源建议词的挖掘装置,其中,该装置包括:
第一需求获取装置,用于获取具有文档资源需求的第一文档需求信息;
第二需求获取装置,用于计算所述第一文档需求信息与文档资源库中文档内容标识信息的相似度,以获得其中相似度低于预定相似度阈值的第二文档需求信息;
建议词获取装置,用于对所述第二文档需求信息进行聚合处理,以获得与所述第二文档需求信息相对应的文档资源建议词。
与现有技术相比,本发明通过获取具有文档资源需求的第一文档需求信息,计算第一文档需求信息与文档资源库中文档内容标识信息的相似度,以获得其中相似度低于预定相似度阈值的第二文档需求信息,并对第二文档需求信息进行聚合处理,以获得相应的文档资源建议词。由于第二文档需求信息与文档内容标识信息的相似度较低,从而用户使用第二文档需求信息进行文档搜索时,往往搜索结果的召回率较低,用户的文档搜索体验也较差,本发明在获取第二文档需求信息后,对其进行诸如分类、聚类等聚合处理,获得处理后的文档资源建议词;这些文档资源建议词可以在用户上传文档时作为文档资源建议词提供给用户,以引导用户对文档资源库进行建设,如将文档资源建议词作为上传文档的标题、标签等,从而有效的提高了后续搜索的命中率,同时提升了用户对文档资源库中文档资源搜索的满足度。进一步地,在通过前述方法引导用户上传文档资源之后,文档资源建议词还可在用户搜索文档资源时,作为搜索建议词提供给用户,这同样有效提高了搜索结果的召回率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种文档资源建议词的挖掘方法的流程图;
图2示出根据本发明另一个方面的一种文档资源建议词的挖掘装置的示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310306623.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型油烟净化装置
- 下一篇:一种可挡油烟的隐藏式灶具