[发明专利]一种基于局部重构模型的电子书内容表示方法在审
申请号: | 201710889265.5 | 申请日: | 2017-09-27 |
公开(公告)号: | CN107861924A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 张海军;王双;姬玉柱 | 申请(专利权)人: | 哈尔滨工业大学深圳研究生院 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 深圳市迪斯卓越专利代理事务所(普通合伙)44443 | 代理人: | 闵华明,李小艳 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 模型 电子书 内容 表示 方法 | ||
技术领域
本发明属于文本挖掘系统领域,尤其涉及基于局部重构模型的电 子书内容表示方法,所述方法使用电子书作为最原始输入。
背景技术
近年来,随着移动阅读设备的广泛使用,电子书的数量日益增多, 因此设计有效的电子书推荐算法,从而为用户进行精准、有效的推荐具有 重要意义。
关于电子书的推荐,已存在的技术主要可以分为两类:协同过滤 推荐和基于内容的推荐。协同过滤的方法很大程度上依赖于用户的行为, 其推荐过程依赖于用户间的相似偏好,且要求系统中一定数量的用户评分。 如果没有足够的用户评分,或某些书未被购买或未被评分,则无法使用协 同过滤进行有效的推荐。但在实际生活中,大部分书的销售量或用户评分 都较少,导致该方法在实际的使用过程中存在很大的局限性。进一步地, 形成了基于内容的推荐算法,但该类方法依赖于详细的特征选择过程,并 需要预先给每本书提供指定的属性信息,进而使用自动的文本分类方法进 行基于内容的推荐。然而对于这种基于内容的推荐,其推荐过程仅依赖于 特定的文本元数据,而并非电子书本身的内容。
“词袋”模型作为典型的基于全文内容表达的研究方法,该类方 法的目的在于获得能够表示整篇文档内容的向量。但该类方法仅依赖于对 于文本中词语的词频统计,而忽略了词语的空间分布信息,导致该方法很 难区分出词频相似但词语的空间分布有差异的两本书。
树形结构作为一种有效的数据组织和表达方式,可以体现出数据 内部的层次关系和空间结构关系。因此,可以将电子书按照“电子书->页 ->段落”的方式进行组织,形成一棵三层的树形结构,从而体现出书的空 间层次结构,在一定程度上弥补“词袋”模型对于文本空间信息的忽略。 但按照树形结构进行组织的数据不便于样本间相似度的计算,因此需要对 树形结构数据的层次信息进一步的整合,从而形成统一的向量表示,以便 于实现进一步的系统推荐。
发明内容
本发明的目的在于提供一种基于局部重构模型的电子书内容表 示方法,旨在解决现有技术中存在的问题。
为了实现树形结构数据的层次信息整合,本发明中提出了一种基 于类-余弦(cosine-type)距离函数的局部重构模型,通过使用孩子节点 信息重构其父节点信息获取重构系数向量,进而对树形结构数据中的局部 信息进行整合,该过程自底向上,直至将树形结构数据转化为统一的向量 表示,从而使得该向量包含了该树形结构数据的层次信息。
本发明通过以下技术方案实现:一种基于局部重构模型的电子书 内容表示方法,所述方法包括以下步骤:
A.树形结构表达:对于每一本电子书,将其划分为若干页,进 一步地,将每一个页划分为若干段落,从而对每一本电子书形成“电子书 ->页->段落”的三层树形结构;
B.节点特征表达:构建词汇表,计算词分布向量,进一步使用 主成分分析(Principal Component Analysis,PCA)对各层次节点的词分 布向量进行降维、压缩,以便于进一步的模型运算;
C.局部重构模型建立:使用孩子节点的信息对其父节点信息进 行重构,即建立局部重构模型,求解局部重构模型并获得重构系数;
D.树形结构的统一向量表示:根据在局部重构模型建立阶段获 得的重构系数向量,将该节点与其孩子节点进行信息融合,更新该节点的 特征向量表示;该过程自底向上逐层进行,直至将由树形结构表示的电子 书数据压缩成为统一的向量表示;
E.基于内容的电子书检索和推荐:使用电子书的统一向量表示 进行电子书的检索,通过相似度的计算为用户进行相关内容的电子书推荐。
作为本发明的进一步改进,所述树形结构表达步骤包括以下步 骤:
A1、电子书的分割:通过识别电子书的段落分割符“/r/n”,对 电子书进行分割,将一本电子书分割为若干个段落;
A2、页的划分:将相邻的若干个段落进行合并,直至合并的段落 的长度超过预先设定的页的最小阈值,则形成一个新的页。本发明中将页 的最小长度的阈值设为1000;
A3、段落的划分:对于上一步中形成的页,再次使用段落分割符 “/r/n”进行分割,并将若干个相邻的段落进行合并,直至其长度超过预 先设定的段落的最小阈值,则形成一个新的段落。本发明中将段落的最小 长度的阈值设为50。
作为本发明的进一步改进,所述节点特征表达步骤包括以下步 骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710889265.5/2.html,转载请声明来源钻瓜专利网。