[发明专利]图书交叉阅读方法有效

专利信息
申请号: 201310601627.8 申请日: 2013-11-22
公开(公告)号: CN103714118A 公开(公告)日: 2014-04-09
发明(设计)人: 鲁伟明;杨善松;魏宝刚;庄越挺 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 张法高
地址: 310027*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 图书 交叉 阅读 方法
【权利要求书】:

1.一种图书交叉阅读方法,其特征在于包括它的步骤如下:

(1)构建图书章节指纹:融合图书章节特征向量和图书类别特征向量,为图书的每个章节构建主题敏感向量,然后再用相似度哈希算法构建图书章节指纹;

(2)构建统一索引:将图书章节指纹转变为语义单词集合,并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引;

(3)图书章节推荐:依据图书章节间的距离,为用户推荐相关图书章节,并基于用户的访问行为,利用流形排序算法进行重排序。

2.根据权利要求1所述的图书交叉阅读方法,其特征在于所述的步骤(1)包括:

2.1对于所有的图书,根据目录将一本图书拆分为章节集合,每个章节作为一个文档进行保存,同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存;

2.2对所有的章节进行自然语言处理,通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语,将章节转变为单词的集合;

2.3根据章节所在图书的分类,构建每个分类的章节集合,分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值:

tfidf(t,d)=tf(t,d)*idf(t,D),d∈D

tfidf(t,c)=tf(t,c)*idf(t,C),c∈C

其中tf(t,d)是指单词t在文档d中出现的次数,idf(t,D)被称为逆文档频率,可以由总文档数目|D|除以包含单词t的文档的数目,再将得到的商取对数,tf(t,c)是指单词t在分类c中出现的次数,idf(t,C)则可以由总分类数|C|除以包含单词t的分类的数目,再将得到的商取对数,当tfidf(t,c)大时,表示单词t在分类c中常出现,而在其他的分类中则不常出现,此时单词t被认为是分类c的主题相关词,当tfidf(t,d)大而tfidf(t,c)小时,则单词t被认为是文档d的文档相关词,而tfidf(t,d)小时,则单词t被认为是背景单词或停用词;选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词,即T(c)={t|tfidf(t,c)>δ,c∈C},其中δ∈[0,1);文档特征向量用表示,其中wi(d)表示文档主题相关词的tfidf(t,d)值,类别特征向量用表示,其中wi(c)表示类别主题相关词的tfidf(t,c)值,最后根据和调节文档向量为d={w1(d),w2(d),...,wN(d)},]]>其中wi(d)=wi(d)*wi(c);]]>

2.4构建图书章节指纹F的相似度哈希算法的步骤包括:首先输入文档d的特征向量并初始化向量V,向量V每个元素置为零,然后对于文档d中的每个单词wi,应用哈希函数θ,得到向量对于中的每个元素如果那么否则最后处理完文档d中的所有单词后,对于所有的{i=1……l},l是向量V的长度,如果Vi>0,那么Fi=1,否则Fi=0。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310601627.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top