[发明专利]图书交叉阅读方法有效

申请号：	201310601627.8	申请日：	2013-11-22
公开（公告）号：	CN103714118A	公开（公告）日：	2014-04-09
发明（设计）人：	鲁伟明;杨善松;魏宝刚;庄越挺	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	张法高
地址：	310027***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图书交叉阅读方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及图书内容检索方法，尤其涉及一种图书交叉阅读方法。

背景技术

随着数字图书馆的日益发展，用户在阅读图书时，希望能够阅读与当前内容相关的其他图书章节，迫切希望数字图书馆中能够提供一种图书交叉阅读推荐服务。

图书交叉阅读本质上是一种基于文档的查询（query by document），即将一个文档作为查询(query)，去检索内容相似的其他文档。传统的文本检索系统一般设计为基于关键词的检索，也就是查询词一般较短。如果直接采用传统的文本检索方法，则性能会下降。比如，如果采用倒排索引的方法，那么由于查询文档中含有较多的词汇，于是合并每个词汇的检索结果需要耗费较长的时间。

文档也可以表达成高维向量，于是query by document可以转化为高维向量的检索问题。哈希方法已在高维向量的检索中被广泛使用。比如，相似度哈希算法可以将相似的文档投影为相似的指纹（即，压缩的二进制码），可用于文档相似检测和检索。然而，在相似度哈希算法中，所有的单词被同等看待，而不考虑单词的语义信息。然而，文档的单词可以被分为文档相关单词、主题相关单词以及背景单词。一般而言，越能反映文档语义的单词越重要，所以需要把这些信息也融入到文档指纹中，使得文档指纹更加能反映主题。

此外，即使把图书章节都转化为了二进制码形式的文档指纹，从海量的文档指纹中查找相似的文档也是个极大的挑战。假设每本书有50个章节（以小节为单位），则100万册图书可形成5000万个指纹，传统采用线性扫描的文档指纹检索方式将不再适用。另外，除了文档内容外，图书的元数据信息、章节标题、用户的点击等信息在文档相似检索中也非常有用。但是很难将这些异构的信息融入到同一个索引中进行统一检索。

在图书交叉阅读中，不仅需要将图书章节投影到语义相关的指纹中，还需要将文档指纹、元数据信息、章节标题、用户点击等信息融入到了同一个索引中。

发明内容

本发明的目的是为克服上述现有方法未能考虑文档单词的语义性，不能有效检索海量哈希编码等缺点，提供一种图书交叉阅读方法。

本发明解决其技术问题采用的技术方案如下：

图书交叉阅读方法的步骤如下：

（1）构建图书章节指纹：融合图书章节特征向量和图书类别特征向量，为图书的每个章节构建主题敏感向量，然后再用相似度哈希算法构建图书章节指纹；

（2）构建统一索引：将图书章节指纹转变为语义单词集合，并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引；

（3）图书章节推荐：依据图书章节间的距离，为用户推荐相关图书章节，并基于用户的访问行为，利用流形排序算法进行重排序。

所述的步骤（1）包括：

2.1对于所有的图书，根据目录将一本图书拆分为章节集合，每个章节作为一个文档进行保存，同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存；

2.2对所有的章节进行自然语言处理，通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语，将章节转变为单词的集合；

2.3根据章节所在图书的分类，构建每个分类的章节集合，分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值：