[发明专利]图书交叉阅读方法有效
申请号: | 201310601627.8 | 申请日: | 2013-11-22 |
公开(公告)号: | CN103714118A | 公开(公告)日: | 2014-04-09 |
发明(设计)人: | 鲁伟明;杨善松;魏宝刚;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图书 交叉 阅读 方法 | ||
1.一种图书交叉阅读方法,其特征在于包括它的步骤如下:
(1)构建图书章节指纹:融合图书章节特征向量和图书类别特征向量,为图书的每个章节构建主题敏感向量,然后再用相似度哈希算法构建图书章节指纹;
(2)构建统一索引:将图书章节指纹转变为语义单词集合,并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引;
(3)图书章节推荐:依据图书章节间的距离,为用户推荐相关图书章节,并基于用户的访问行为,利用流形排序算法进行重排序。
2.根据权利要求1所述的图书交叉阅读方法,其特征在于所述的步骤(1)包括:
2.1对于所有的图书,根据目录将一本图书拆分为章节集合,每个章节作为一个文档进行保存,同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存;
2.2对所有的章节进行自然语言处理,通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语,将章节转变为单词的集合;
2.3根据章节所在图书的分类,构建每个分类的章节集合,分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值:
tfidf(t,d)=tf(t,d)*idf(t,D),d∈D
tfidf(t,c)=tf(t,c)*idf(t,C),c∈C
其中tf(t,d)是指单词t在文档d中出现的次数,idf(t,D)被称为逆文档频率,可以由总文档数目|D|除以包含单词t的文档的数目,再将得到的商取对数,tf(t,c)是指单词t在分类c中出现的次数,idf(t,C)则可以由总分类数|C|除以包含单词t的分类的数目,再将得到的商取对数,当tfidf(t,c)大时,表示单词t在分类c中常出现,而在其他的分类中则不常出现,此时单词t被认为是分类c的主题相关词,当tfidf(t,d)大而tfidf(t,c)小时,则单词t被认为是文档d的文档相关词,而tfidf(t,d)小时,则单词t被认为是背景单词或停用词;选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词,即T(c)={t|tfidf(t,c)>δ,c∈C},其中δ∈[0,1);文档特征向量用表示,其中wi(d)表示文档主题相关词的tfidf(t,d)值,类别特征向量用表示,其中wi(c)表示类别主题相关词的tfidf(t,c)值,最后根据和调节文档向量为
2.4构建图书章节指纹F的相似度哈希算法的步骤包括:首先输入文档d的特征向量并初始化向量V,向量V每个元素置为零,然后对于文档d中的每个单词wi,应用哈希函数θ,得到向量对于中的每个元素如果那么否则最后处理完文档d中的所有单词后,对于所有的{i=1……l},l是向量V的长度,如果Vi>0,那么Fi=1,否则Fi=0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310601627.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种刹车片喷码装置
- 下一篇:印版滚筒的周向拉版机构