[发明专利]一种基于标签的图书搜索方法有效
申请号: | 201510035855.2 | 申请日: | 2015-01-23 |
公开(公告)号: | CN104537116B | 公开(公告)日: | 2017-10-31 |
发明(设计)人: | 张寅;张鹏 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 图书 搜索 方法 | ||
1.一种基于标签的图书搜索方法,其特征在于包括以下步骤:
1) 获取图书的元数据文本信息,包括都柏林核心规范定义的15项数字资源元数据段以及图书的章节目录文本信息,再针对元数据文本信息采用关键词提取算法生成图书的标签;
2)将图书的元数据文本信息和步骤1)生成的标签一起写入搜索系统的索引文件系统中,索引文件的具体结构包括5个域:图书名称、图书作者、图书主题、出版社名称、图书标签,用户在进行图书检索时,会在上述五个域中进行文本匹配以获取搜索结果;
3)构建图书搜索的前端系统,采用B/S模式,前端系统是基于WEB浏览器的图形用户界面,功能是提供图书搜索的界面以及搜索结果展示界面;
4)构建图书搜索的后台系统,并以Restful Web Service的形式对外暴露服务接口,后台系统的功能是提供图书搜索服务,包括基于关键词的图书检索、多维度搜索条件约束、搜索语句精确/模糊匹配、搜索意图推荐功能,前端系统的搜索请求会调用后台系统的图书搜索接口;
5)进行搜索意图推荐,利用图书和搜索语句的关联度、标签与图书的关联度信息计算出标签与搜索语句的关联度,获得标签与搜索语句的关联度排名较高的标签,并随着搜索结果一起返回给用户。
2.根据权利要求1所述的基于标签的图书搜索方法,其特征在于:所述的步骤1)为:获取图书的元数据文本信息,图书的元数据文本信息存储在分布式文件系统或者数据库中,图书搜索系统获取的元数据文本信息包括由都柏林核心规范指定的15项数字资源元数据条目以及图书的章节文本信息,之后需要对元数据文本信息进行分词、去停用词、词干化处理,之后采用TextRank关键词提取算法计算出词与图书之间的关联度,选取关联度较高的词作为图书的标签。
3.根据权利要求1所述的基于标签的图书搜索方法,其特征在于:所述的步骤2)为:将图书的元数据文本信息和步骤1)生成的标签一起写入搜索系统的索引文件系统中,其中索引文件的生成和检索功能采用Lucene全文检索引擎工具包实现,索引文件的具体结构包括5个域:图书名称、图书作者、图书主题、出版社名称、图书标签,前4项在都柏林核心规范中有定义,第5项由步骤1)生成,前4项在索引文件中存储两部分,第一部分是将域中文本分词后的单词集合,第二部分是域中文本未分词的一整段文本;第5项则只需要存储图书的标签集合,上述5个域在索引文件中均以压缩的方式存储,用户在进行图书检索时,图书搜索系统会在上述五个域中进行文本匹配以获取搜索结果。
4.根据权利要求1所述的基于标签的图书搜索方法,其特征在于:所述的步骤3)为:构建图书搜索的前端系统,系统采用B/S模式构建,前端系统采用基于WEB浏览器的图形用户界面,功能是提供图书搜索的界面以及搜索结果展示界面,图书搜索系统的用户交互途径分为2个部分:第一步是统一搜索,通过键入关键词进行搜索,获得相对广泛的搜索结果;第二步是添加标签、类型、出版社约束条件进行更精确的查询。
5.根据权利要求1所述的基于标签的图书搜索方法,其特征在于:所述的步骤4)为:构建图书搜索的后台系统,后台系统的功能是提供图书搜索服务,图书搜索功能采用Lucene全文检索引擎工具包实现,并且采用RestLet框架以Restful Web Service的方式暴露服务接口,前端系统的搜索请求会调用图书搜索接口,后台系统提供了三种方式来具体化用户的搜索意图:
(1)用户通过点击类型、标签、出版社信息缩小查询的范围,具体实现方式为在索引文件的图书标签域中进行基于布尔逻辑的搜索结果过滤;
(2)通过限制仅搜书名、作者限制查询维度,具体实现方式为在索引文件中选择只在图书名称或图书作者域中搜索;
(3)通过选择搜索词完全匹配实现精确搜索,具体实现方式为在索引文件的图书名称或者图书作者域中选择未分词的文本段进行搜索。
6.根据权利要求1所述的基于标签的图书搜索方法,其特征在于:所述的步骤5)为:进行搜索意图推荐,利用Lucene全文检索引擎工具包获取图书和搜索语句的关联度、再利用CBTR标签排序算法算出标签与图书的关联度,之后将两者相乘并累加,计算出标签与搜索语句的关联度,获得标签与搜索语句的关联度排名较高的标签,并随着搜索结果一起返回给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510035855.2/1.html,转载请声明来源钻瓜专利网。