[发明专利]一种基于书评的书籍推荐方法及系统在审
申请号: | 201910109797.1 | 申请日: | 2019-02-11 |
公开(公告)号: | CN109885766A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 邱奇志;李葭;陈睿;赵冬瑜 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 书籍 标签模型 特征描述 关联度 语料库 三层神经网络 大型语料库 机器学习 计量分析 特征维度 维基百科 研究对象 语言特征 语义内容 词向量 算法 词语 全集 标签 学习 中文 改进 探索 | ||
1.一种基于书评的书籍推荐方法,其特征在于,包括以下步骤:
步骤1:从目标网站爬取相应书籍的书评并建立数据库保存数据;
步骤2:建立书籍书评标签集;
步骤3:建立自然语言标签库;
步骤4:计算书籍书评标签集之间关联度;
步骤5:根据关联度排名高低进行书籍推荐。
2.根据权利要求1所述的基于书评的书籍推荐方法,其特征在于,步骤2的具体实现包括以下子步骤:
步骤2.1:人工提取书籍书评属性,从书评中提取书的内容属性、题材属性,情感属性,获得书籍书评属性标签模型;
步骤2.2:首先使用向后词袋法将书籍的全部书评向量化,并训练出该书籍书评的word2vec模型,使用TF-IDF计算词语的重要程度权重;
步骤2.3:设有标签集set,将权重排名前K个词语放入标签集set以及待迭代队列q中,K为预设阈值;
步骤2.4:设q出列词语为word,使用书评的word2vec模型计算与word最关联的前L个词语words,将words加入到标签集set并入列到q中,L为预设阈值;
步骤2.5:重复步骤2.4,直到标签集set中词语超过X或迭代次数达到Y次,X、Y均为预设阈值。
3.根据权利要求1所述的基于书评的书籍推荐方法,其特征在于,步骤3的具体实现包括以下子步骤:
步骤3.1:获取若干常用自然语言的大型语料库;
步骤3.2:利用步骤2中采用的方法,建立自然语言标签库。
4.根据权利要求1所述的基于书评的书籍推荐方法,其特征在于,步骤4的具体实现包括以下子步骤:
步骤4.1:书A与书B的标签全集用A.tag、B.tag表示,具体某一标签使用A.tag[n]、B.tag[n]表示,使用A.tag[n].tf_idf、B.tag[n].tf_idf表示其重要性权重,关联度使用relate(A.tag[n],B.tag[n])表示;对大型语料库使用word2vec方法训练泛集模型;所述泛集模型是用word2vec训练得到的,使用贴近自然语言习惯的语料库,在泛集模型中来确定词语和词语之间的关系;
步骤4.2:对于任意A.tag[n],使用泛集模型,找出B.tag中与之关联度最高的前t个词B.tag[t1],B.tag[t2],B.tag[t3],...,B.tag[t];
步骤4.3:计算前t个词关联度的平均值,乘以A.tag[n].tf_idf,作为该词到B.tag整体的关联度;
步骤4.4:对于A.tag中所有词语重复步骤4.2-步骤4.3,将结果求和得到书A与书B的关联度。
5.一种基于书评的书籍推荐系统,其特征在于:包括书籍书评爬取模块、建立书籍书评标签集模块、建立自然语言标签库模块、计算书籍书评标签集之间关联度模块、根据关联度进行书籍推荐模块;
所述书籍书评爬取模块,用于从目标网站爬取相应书籍的书评并建立数据库保存数据;
所述建立书籍书评标签集模块,用于建立书籍书评标签集;
所述建立自然语言标签库模块,用于建立自然语言标签库;
所述计算书籍书评标签集之间关联度模块,用于计算书籍书评标签集之间关联度;
所述根据关联度进行书籍推荐模块,用于根据关联度进行书籍推荐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910109797.1/1.html,转载请声明来源钻瓜专利网。