[发明专利]一种用于电子图书馆的用户数据采集方法在审
申请号: | 201810078830.4 | 申请日: | 2018-01-26 |
公开(公告)号: | CN110086842A | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 尹小平;史亭;王磊 | 申请(专利权)人: | 凡学(上海)教育科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵志远 |
地址: | 201620 上海市松*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 权重系数 用户模型 用户数据 记录 图书馆 采集 阅读状态信息 噪声 配置 | ||
本发明涉及一种用于电子图书馆的用户数据采集方法,包括:步骤S1:当用户从电子图书馆获取一本图书时,生成一条对应于该图书的记录;步骤S2:根据用户对该图书的阅读状态信息计算该记录的权重系数;步骤S3:将该记录及其权重系数作为用户模型的输入。与现有技术相比,本发明为每一条记录都配置权重系数,可以提高用户模型的输入数据的准确性,排除噪声,提高推荐的准确性。
技术领域
本发明涉及一种数据采集方法,尤其是涉及一种用于电子图书馆的用户数据采集方法。
背景技术
电子图书馆由于具备环保、发行成本低等优点广受青睐,电子图书馆,是随着电版物的出现,网络通信技术的发展,而逐渐出现的。电子图书馆,具有存储能力大、速度快、保存时间长、成本低、便于交流等特点。光盘这-海量存储器、能够存储比传统图书高几千倍的信息,比微缩胶卷要多得多,而且包括图象、视频、声音,等等。利用电子技术,在这一种图书馆,我们能很快地从浩如烟海的图书中,查找到自己所需要的信息资料。这种图书馆,保存信息量的时间要长得多,不存在霉烂、生虫等问题。利用网络,在远在几千里、万里的单位、家中,都可以使用这种图书,效率极高。
由于电子图书馆中的书籍量过于庞大,若果完全展现反而会让用户因为选择过多而不易选择,因此更好的选择是倾向于向用户推荐其感兴趣的书籍,为了获取其兴趣的基础便是拥有足够的数据,现在的数据采集方式大多是根据用户阅读历史来构建模型,然而现有的阅读历史数据仅是简单的点击记录,只能确认用户对标题可能感兴趣,并不能确定用户是否对内容感兴趣。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于电子图书馆的用户数据采集方法。
本发明的目的可以通过以下技术方案来实现:
一种用于电子图书馆的用户数据采集方法,包括:
步骤S1:当用户从电子图书馆获取一本图书时,生成一条对应于该图书的记录;
步骤S2:根据用户对该图书的阅读状态信息计算该记录的权重系数;
步骤S3:将该记录及其权重系数作为用户模型的输入。
所述阅读状态信息为以下因素的任意组合:
阅读时间、阅读进度、阅读速度和图书等级。
所述步骤S2具体包括:
采集用户对该图书的阅读时间,并计算其归一化的权重分量;
采集用户对该图书的阅读进度,并计算其归一化的权重分量;
采集用户对该图书的阅读速度,并计算其归一化的权重分量;
采集该图书的图书等级,并计算其归一化的权重分量;
计算该记录的权重系数。
权重系数具体为:
其中:W为权重系数,Ta1为阅读时间归一化的权重分量,Ta2为阅读进度归一化的权重分量,Ta3为阅读速度归一化的权重分量,Ta4为图书等级归一化的权重分量。
所述图书等级具体为图书阅读难度等级。
所述阅读状态信息存储于终端中,并在定时或不定时地向服务器发送。
与现有技术相比,本发明具有以下有益效果:
1)为每一条记录都配置权重系数,可以提高用户模型的输入数据的准确性,排除噪声,提高推荐的准确性。
2)利用归一化的权重分量计算权重系数,在确保数据准确性的前提下简化计算过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凡学(上海)教育科技有限公司,未经凡学(上海)教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810078830.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:构建MPP公有云和局部私有云的方法及装置
- 下一篇:一种监测方法及终端