[发明专利]图书交叉阅读方法有效

专利信息
申请号: 201310601627.8 申请日: 2013-11-22
公开(公告)号: CN103714118A 公开(公告)日: 2014-04-09
发明(设计)人: 鲁伟明;杨善松;魏宝刚;庄越挺 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 张法高
地址: 310027*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 图书 交叉 阅读 方法
【说明书】:

技术领域

发明涉及图书内容检索方法,尤其涉及一种图书交叉阅读方法。

背景技术

随着数字图书馆的日益发展,用户在阅读图书时,希望能够阅读与当前内容相关的其他图书章节,迫切希望数字图书馆中能够提供一种图书交叉阅读推荐服务。

图书交叉阅读本质上是一种基于文档的查询(query by document),即将一个文档作为查询(query),去检索内容相似的其他文档。传统的文本检索系统一般设计为基于关键词的检索,也就是查询词一般较短。如果直接采用传统的文本检索方法,则性能会下降。比如,如果采用倒排索引的方法,那么由于查询文档中含有较多的词汇,于是合并每个词汇的检索结果需要耗费较长的时间。

文档也可以表达成高维向量,于是query by document可以转化为高维向量的检索问题。哈希方法已在高维向量的检索中被广泛使用。比如,相似度哈希算法可以将相似的文档投影为相似的指纹(即,压缩的二进制码),可用于文档相似检测和检索。然而,在相似度哈希算法中,所有的单词被同等看待,而不考虑单词的语义信息。然而,文档的单词可以被分为文档相关单词、主题相关单词以及背景单词。一般而言,越能反映文档语义的单词越重要,所以需要把这些信息也融入到文档指纹中,使得文档指纹更加能反映主题。

此外,即使把图书章节都转化为了二进制码形式的文档指纹,从海量的文档指纹中查找相似的文档也是个极大的挑战。假设每本书有50个章节(以小节为单位),则100万册图书可形成5000万个指纹,传统采用线性扫描的文档指纹检索方式将不再适用。另外,除了文档内容外,图书的元数据信息、章节标题、用户的点击等信息在文档相似检索中也非常有用。但是很难将这些异构的信息融入到同一个索引中进行统一检索。

在图书交叉阅读中,不仅需要将图书章节投影到语义相关的指纹中,还需要将文档指纹、元数据信息、章节标题、用户点击等信息融入到了同一个索引中。

发明内容

本发明的目的是为克服上述现有方法未能考虑文档单词的语义性,不能有效检索海量哈希编码等缺点,提供一种图书交叉阅读方法。

本发明解决其技术问题采用的技术方案如下:

图书交叉阅读方法的步骤如下:

(1)构建图书章节指纹:融合图书章节特征向量和图书类别特征向量,为图书的每个章节构建主题敏感向量,然后再用相似度哈希算法构建图书章节指纹;

(2)构建统一索引:将图书章节指纹转变为语义单词集合,并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引;

(3)图书章节推荐:依据图书章节间的距离,为用户推荐相关图书章节,并基于用户的访问行为,利用流形排序算法进行重排序。

所述的步骤(1)包括:

2.1对于所有的图书,根据目录将一本图书拆分为章节集合,每个章节作为一个文档进行保存,同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存;

2.2对所有的章节进行自然语言处理,通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语,将章节转变为单词的集合;

2.3根据章节所在图书的分类,构建每个分类的章节集合,分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值:

tfidf(t,d)=tf(t,d)*idf(t,D),d∈D

tfidf(t,c)=tf(t,c)*idf(t,C),c∈C

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310601627.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top