[发明专利]图书交叉阅读方法有效

申请号：	201310601627.8	申请日：	2013-11-22
公开（公告）号：	CN103714118A	公开（公告）日：	2014-04-09
发明（设计）人：	鲁伟明;杨善松;魏宝刚;庄越挺	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	张法高
地址：	310027***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图书交叉阅读方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种图书交叉阅读方法，其特征在于包括它的步骤如下：

(1)构建图书章节指纹：融合图书章节特征向量和图书类别特征向量，为图书的每个章节构建主题敏感向量，然后再用相似度哈希算法构建图书章节指纹；

(2)构建统一索引：将图书章节指纹转变为语义单词集合，并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引；

(3)图书章节推荐：依据图书章节间的距离，为用户推荐相关图书章节，并基于用户的访问行为，利用流形排序算法进行重排序。

2.根据权利要求1所述的图书交叉阅读方法，其特征在于所述的步骤（1）包括：

2.1对于所有的图书，根据目录将一本图书拆分为章节集合，每个章节作为一个文档进行保存，同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存；

2.2对所有的章节进行自然语言处理，通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语，将章节转变为单词的集合；

2.3根据章节所在图书的分类，构建每个分类的章节集合，分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值：

tfidf(t,d)=tf(t,d)*idf(t,D),d∈D

tfidf(t,c)=tf(t,c)*idf(t,C),c∈C

其中tf(t,d)是指单词t在文档d中出现的次数，idf(t,D)被称为逆文档频率，可以由总文档数目|D|除以包含单词t的文档的数目，再将得到的商取对数，tf(t,c)是指单词t在分类c中出现的次数，idf(t,C)则可以由总分类数|C|除以包含单词t的分类的数目，再将得到的商取对数，当tfidf(t,c)大时，表示单词t在分类c中常出现，而在其他的分类中则不常出现，此时单词t被认为是分类c的主题相关词，当tfidf(t,d)大而tfidf(t,c)小时，则单词t被认为是文档d的文档相关词，而tfidf(t,d)小时，则单词t被认为是背景单词或停用词；选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词，即T(c)={t|tfidf(t,c)>δ,c∈C}，其中δ∈[0,1)；文档特征向量用表示，其中w_i(d)表示文档主题相关词的tfidf(t,d)值，类别特征向量用表示，其中w_i(c)表示类别主题相关词的tfidf(t,c)值，最后根据和调节文档向量为d′→={w′1(d),w′2(d),...,w′N(d)},]]>其中wi′(d)=wi(d)*wi(c);]]>

2.4构建图书章节指纹F的相似度哈希算法的步骤包括：首先输入文档d的特征向量并初始化向量V,向量V每个元素置为零，然后对于文档d中的每个单词w_i，应用哈希函数θ,得到向量对于中的每个元素如果那么否则最后处理完文档d中的所有单词后，对于所有的{i=1……l}，l是向量V的长度，如果V_i>0,那么F_i=1，否则F_i=0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310601627.8/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]图书交叉阅读方法有效

专利文献下载