[发明专利]一种基于大数据的数字图书馆数据库建设方法在审
申请号: | 201810145922.X | 申请日: | 2018-02-12 |
公开(公告)号: | CN108399229A | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 杨良军 | 申请(专利权)人: | 安徽千云度信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 230000 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图书馆 大数据 结构化数据 数字图书馆 大数据库 数据库 分布式计算架构 采集 非结构化数据 工作状态信息 用户行为数据 图书馆服务 图书馆管理 图书馆资源 地理信息 读者需求 互动资料 垃圾数据 实时更新 书目数据 数据信息 搜索信息 网站浏览 隐含 过滤 存储 挖掘 服务 建设 改进 分析 | ||
1.一种基于大数据的数字图书馆数据库建设方法,其特征在于,包括如下步骤:
SS01采集非结构化数据:通过传感器网络、图书馆系统监控设备、服务系统、读者反馈系统采集用户行为数据和图书馆的工作状态信息;
SS02采集结构化数据:通过图书馆采购图书资料数据采集图书馆的书目数据;
SS03采集半结构化数据:通过微博、微信、社交网站产生的数据采集读者使用图书馆过程中的地理信息、搜索信息、网站浏览轨迹、互动资料记载信息;
SS04通过数据清洗过滤与用户行为数据无关的垃圾数据;
SS05建立图书馆智慧大数据库:将非结构化数据、结构化数据、半结构化数据均存储至智慧大数据库并实时更新;
SS06采用Hadoop分布式计算架构,对数据进行挖掘使用。
2.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法,其特征在于:
所述用户行为数据包括读者个体特征数据、阅读习惯数据、图书馆用户服务模式信息、用户服务的方法与内容信息、阅读应用的类型与工作方式信息、阅读活动的方式选择和变化趋势信息、图书馆用户需求调研数据、读者反馈的阅读需求信息、读者对网站内容的查询与搜索历史记录数据、用户对服务内容的选择与删除数据;
所述读者反馈的阅读需求信息包括读者阅读体验阅读满意度数据信息、读者阅读书目需求数据信息、读者体验服务满意度数据信息、阅读关系交集信息。
3.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法,其特征在于,所述图书馆的工作状态信息包括馆员的业务量信息、业务内容信息、业务质量信息、图书馆服务时产生的数据信息。
4.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法,其特征在于,所述数据清洗包括如下步骤:
步骤一:根据用户行为发生的时间、地点、方式、作用对象和结果进行定义,按特征值对用户行为数据进行分组处理;避免海量计算
步骤二:采用spark集群进行分布式的并行计算,完成数据清洗。
5.根据权利要求4所述的一种基于大数据的数字图书馆数据库建设方法,其特征在于,所述步骤二中采用spark集群进行分布式的并行计算的实现过程包括如下步骤:
采用scala语言进行实现并运行在spark集群上;
S01提取步骤一中的特征值;
S02以特征值为key,将SS01中采集的用户行为数据进行合并,得到分行数据;
S03对分行数据进行分组;
S04按组进行过滤,对重复的数据组内数据进行复杂字符串的匹配;
S05完成数据清洗。
6.根据权利要求1所述的一种基于大数据的数字图书馆数据库建设方法,其特征在于,基于所述Hadoop的图书馆智慧大数据库技术框架包括大数据资源层、数据过滤与解析层、用户层和数据整合系统反馈控制层;
所述大数据资源层包括图书馆在读者服务过程中采集的非结构化数据、结构化数据、半结构化数据;
所述数据过滤与解析层位于大数据资源层上层,完成对图书馆大数据库资源的提取、数据清洗,过滤大数据噪音;
所述用户层针对各级用户提供基于工具的服务应用;
所述数据整合系统反馈控制层通过对大数据分析与决策构成大数据应用有效性的评估,完成对用户层的反馈控制、资源调度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽千云度信息技术有限公司,未经安徽千云度信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810145922.X/1.html,转载请声明来源钻瓜专利网。