[发明专利]一种高校图书馆用户画像系统的生成方法有效

专利信息
申请号: 201910633190.3 申请日: 2019-07-15
公开(公告)号: CN110532309B 公开(公告)日: 2022-05-03
发明(设计)人: 李伟;王辰鑫;胡云飞 申请(专利权)人: 浙江工业大学
主分类号: G06F16/25 分类号: G06F16/25;G06F16/215
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 高校 图书馆 用户 画像 系统 生成 方法
【权利要求书】:

1.一种高校图书馆用户画像系统的生成方法,其特征在于,所述方法包括如下步骤:

(1)构建读者行为数据仓库:读者行为数据包括读者借阅数据、进馆数据、公共资源使用数据、电子资源使用数据,除了行为数据外还有馆藏数据和读者个人数据基本信息数据;构建统一的数据仓库,并通过ETL数据清理工具将各个资源库的数据汇总为统一的格式到数据仓库中;

(2)使用多视角聚类算法进行聚类操作:从用户行为数据出发,构建多维度多视角读者特征体系,同时根据读者行为数据的特点,选取聚类算法中的经典K-means算法进行读者群体聚类,针对经典K-means算法陷入局部最优和欧式距离在多视角聚类中的局限性,使用了一种基于马氏距离的多视角二分K-means算法;

(3)基于多视角聚类实现用户画像:该步骤包含数据清洗、构建多维度多视角读者特征体系、针对某一维度或多个维度组合的读者进行多视角聚类、根据得出的用户群体的重要性通过数据库技术提取读者的用户特征、最后利用可视化技术得出用户画像;

(4)实现一个基于用户画像的图书馆推荐系统:根据上述阶段得出的用户画像,设计一个用户画像系统,能够挖掘读者的潜在需求,并能够推荐给读者其个性化的服务;

所述步骤(2)中,基于马氏距离的多视角二分K-means算法,输入为多视角数据集D,聚类簇数k;输出为簇划分C=C1,C2,C3,…Ck,步骤如下:

2.1)将所有数据看作一个簇,计算簇中心

2.2)满足簇中心个数h<k条件时循环以下步骤;

2.3)i分别取1,2,…,h进行以下操作;

2.4)将第i个簇使用K-means算法进行k为2的划分;

2.5)计算划分后马氏距离总和;

2.6)比较h种划分后的马氏距离总和,选择马氏距离总和最小的划分方式;

2.7)更新簇的分配方式;

2.8)添加新的簇中心;

2.9)直到簇中心个数达到k。

2.如权利要求1所述的一种高校图书馆用户画像系统的生成方法,其特征在于,所述步骤(3)中,步骤如下:

3.1)数据抽取

数据抽取是建立ETL的第一步,在此之前对源数据库类型和数据类型做了详细的分析,通过JDBC与不同的业务数据库建立连接,这里使用一个自己封装的jar包完成数据库的连接和数据的抽取;根据此jar包形成的数据抽取方式,满足:

支持数据全量抽取和增量抽取,在第一次对数据进行抽取时,由于已经存在了若干年的数据,所以第一次对数据采用全量抽取,之后在第一次的基础上做增量抽取;在jar包的配置文件中对数据抽取的SQL代码被分布在不同的job中,全量抽取和增量抽取也被封装在不同的job,多个job合成一个jobgroup,每个jobgroup负责对一个业务数据库的抽取;

增量抽取频率自由设定,对于不同的业务系统数据,增量抽取的频率是不同的,进馆数据、借阅数据行为数据一天抽取一次,而对于读者信息和图书信息一年或半年进行一次抽取,所以在使用的jar包中自由配置每个jobgroup的执行时间来设置不同任务的频率,从而满足数据抽取的需求;

3.2)数据清洗

对于抽取后的数据需要进行清洗,清洗标准是去除不符合标准的数据,包括字段缺失、数据错误、数据重复;

对于字段缺失的数据,首先通过中间表将数据补齐,如果中间表找不到缺失数据,且数据对后续分析有影响,则删除这条数据;如在实际操作中会遇到缺少学工号的数据,但是对于行为数据来说学工号是后续分析的重点,因此缺少学工号会对后续的分析产生影响,因此遇到这种情况,选择舍弃;

3.3)数据转换及加载

对于抽取和清洗后的数据,依然还是会存在和目标数据仓库字段类型不一致的问题,因此需要对数据根据目标仓库的对应表,对应字段的类型进行转换,并将转换后的字段加载进目标仓库中。

3.如权利要求2所述的一种高校图书馆用户画像系统的生成方法,其特征在于,所述步骤3.3)中,从数据中提取用户的行为轨迹,将用户信息标签化是构建用户画像的必经过程,用户特征包含显性特征和隐形特征,在图书馆用户画像中,显性特征即读者的基本信息,包括学院、专业、年级和性别,由读者的显性特征构建读者特征维度,从某个维度或多个维度结合对读者进行划分;读者的隐性特征能够更好地反映读者需求,读者的隐性特征包括读者活跃度、读者借阅率、电子资源使用率、公共资源使用率、读者借阅书籍文本特征这五个不同的视角特征,计算公式如下所示:

3.3.1)读者活跃度

读者活跃度最直观的表现了读者对图书馆的需求,但是不同年级,不同身份的读者在统计的时间区间内有效天数均不同,为了避免有效时间带来的影响,通过进馆次数除以有效天数来表示读者活跃度,有效天数由年级和身份决定,读者活跃度计算公式如下:

RA代表读者活跃度,T为在时间区间内的进馆次数,D为读者在数据集时间区间内在图书馆的有效天数;

3.3.2)读者借阅率

馆藏是图书馆最重要的资源之一,读者在图书馆的主要活动也是以书籍借阅为主,因此,根据读者的借阅次数和进馆次数得出读者借阅率的计算公式如下:

LR为读者借阅率,L为读者借阅次数,T为进馆次数;

3.3.3)电子资源使用率

电子资源是图书馆除馆藏资源外每年的主要投入之一,也是读者的主要活动之一,因此,有效的计算和利用电子资源的使用率能更好的反映读者的需求,计算公式如下:

IR为电子资源使用率,E为电子资源数据库集合,dx为在x库中的下载量,sx为在x库中的搜索量,T为进馆次数;

3.3.4)公共资源使用率

除了馆藏资源和电子资源外,图书馆越来越重视公共资源对读者的吸引程度,公共资源包括阅读空间、座位、自助文印的使用,计算公式如下:

PR为公共资源使用率,pt为自助文印使用次数,st为座位预约使用次数,rt为阅读空间使用次数,以上使用次数均为该资源预约使用次数,从预约记录和使用记录中获取,T为进馆次数;

3.3.5)读者借阅书籍文本特征

读者借阅的书籍信息最能体现读者的需求,书籍信息包括书名、中图分类、作者、出版社、出版年份,对书籍信息进行向量化表示,向量的每一维由特征项及其权重组成,权重用TF-IDF的方法来计算,计算公式如下:

其中:w(ti,d)为特征项ti在所有信息文本中的权重,d为所有信息文本的集合,tf(ti,d)为特征项ti在所有信息本文中的词频,N为信息文本的总数,ni为文本集中出现特征项ti的文本数,分母为归一化因子。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910633190.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top