[发明专利]图书交叉阅读方法有效
申请号: | 201310601627.8 | 申请日: | 2013-11-22 |
公开(公告)号: | CN103714118A | 公开(公告)日: | 2014-04-09 |
发明(设计)人: | 鲁伟明;杨善松;魏宝刚;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图书 交叉 阅读 方法 | ||
技术领域
本发明涉及图书内容检索方法,尤其涉及一种图书交叉阅读方法。
背景技术
随着数字图书馆的日益发展,用户在阅读图书时,希望能够阅读与当前内容相关的其他图书章节,迫切希望数字图书馆中能够提供一种图书交叉阅读推荐服务。
图书交叉阅读本质上是一种基于文档的查询(query by document),即将一个文档作为查询(query),去检索内容相似的其他文档。传统的文本检索系统一般设计为基于关键词的检索,也就是查询词一般较短。如果直接采用传统的文本检索方法,则性能会下降。比如,如果采用倒排索引的方法,那么由于查询文档中含有较多的词汇,于是合并每个词汇的检索结果需要耗费较长的时间。
文档也可以表达成高维向量,于是query by document可以转化为高维向量的检索问题。哈希方法已在高维向量的检索中被广泛使用。比如,相似度哈希算法可以将相似的文档投影为相似的指纹(即,压缩的二进制码),可用于文档相似检测和检索。然而,在相似度哈希算法中,所有的单词被同等看待,而不考虑单词的语义信息。然而,文档的单词可以被分为文档相关单词、主题相关单词以及背景单词。一般而言,越能反映文档语义的单词越重要,所以需要把这些信息也融入到文档指纹中,使得文档指纹更加能反映主题。
此外,即使把图书章节都转化为了二进制码形式的文档指纹,从海量的文档指纹中查找相似的文档也是个极大的挑战。假设每本书有50个章节(以小节为单位),则100万册图书可形成5000万个指纹,传统采用线性扫描的文档指纹检索方式将不再适用。另外,除了文档内容外,图书的元数据信息、章节标题、用户的点击等信息在文档相似检索中也非常有用。但是很难将这些异构的信息融入到同一个索引中进行统一检索。
在图书交叉阅读中,不仅需要将图书章节投影到语义相关的指纹中,还需要将文档指纹、元数据信息、章节标题、用户点击等信息融入到了同一个索引中。
发明内容
本发明的目的是为克服上述现有方法未能考虑文档单词的语义性,不能有效检索海量哈希编码等缺点,提供一种图书交叉阅读方法。
本发明解决其技术问题采用的技术方案如下:
图书交叉阅读方法的步骤如下:
(1)构建图书章节指纹:融合图书章节特征向量和图书类别特征向量,为图书的每个章节构建主题敏感向量,然后再用相似度哈希算法构建图书章节指纹;
(2)构建统一索引:将图书章节指纹转变为语义单词集合,并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引;
(3)图书章节推荐:依据图书章节间的距离,为用户推荐相关图书章节,并基于用户的访问行为,利用流形排序算法进行重排序。
所述的步骤(1)包括:
2.1对于所有的图书,根据目录将一本图书拆分为章节集合,每个章节作为一个文档进行保存,同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存;
2.2对所有的章节进行自然语言处理,通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语,将章节转变为单词的集合;
2.3根据章节所在图书的分类,构建每个分类的章节集合,分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值:
tfidf(t,d)=tf(t,d)*idf(t,D),d∈D
tfidf(t,c)=tf(t,c)*idf(t,C),c∈C
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310601627.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种刹车片喷码装置
- 下一篇:印版滚筒的周向拉版机构