[发明专利]一种基于LDA主题模型的图书自动分类方法有效
申请号: | 201811584226.5 | 申请日: | 2018-12-24 |
公开(公告)号: | CN109726286B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 符俊涛;王超芸;李曲;应文佳;马堃;沈钦壮 | 申请(专利权)人: | 杭州东信北邮信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/258 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lda 主题 模型 图书 自动 分类 方法 | ||
一种基于LDA主题模型的图书自动分类方法,包括:建立分类体系;选取已知类别图书作为训练图书,所有训练图书的标签构成图书标签总集,并为图书标签总集中每个标签分配一个唯一序号;构建、并训练一个多项分布模型,多项分布模型的输入是训练图书包含的图书标签和训练图书类别,输出是在不同类别下图书标签总集中每个标签的概率;从待分类图书中挑选出图书标签,并构成待分类图书的标签集合,然后基于LDA主题模型,采用Gibbs采样方法为待分类图书所包含的每个图书标签采样分配一个类别,当达到收敛后,统计待分类图书所属每个类别的得分,据此获得待分类图书所属类别。本发明属于信息技术领域,能基于LDA主题模型实现图书自动分类。
技术领域
本发明涉及一种基于LDA主题模型的图书自动分类方法,属于信息技术领域。
背景技术
图书分类对于藏有大量图书的线上和线下图书机构来说一直都有着重要的意义。对于新兴阅读群体推崇的网络文学平台和网上书店,准确的图书分类是各种图书推荐精准的基础,而对于承载传统出版文学的图书馆和实体书店,准确的图书分类能够提高管理效率和提升用户体验。对于这些机构而言,由于存在不少需纠正分类的老书和不断上架的新书,当前以人工为主的图书分类方式存在工作量大、效率低、分类主观化、不准确等问题,因此发明一种高效准确的图书自动分类方法,显得日趋重要。
当前的图书自动分类算法主要集中于使用朴素贝叶斯、支持向量机和神经网络等机器学习算法。由于图书本质上是一堆文本的集合,分类的图书既可包含网络文学,也可包含传统文学,上述方法并不能达到很好的效果。
基于NLP(自然语言处理)的传统的LDA主题模型是无监督学习的,直接应用LDA主题模型就相当于将一些图书进行了聚类,这个就和对图书进行分类的初衷相悖,因此,如何对LDA主题模型进行改造,从而应用于图书自动分类,已成为技术人员急需解决的技术问题。
发明内容
有鉴于此,本发明的目的是提供一种基于LDA主题模型的图书自动分类方法,能基于LDA主题模型来实现图书的自动分类。
为了达到上述目的,本发明提供了一种基于LDA主题模型的图书自动分类方法,包括有:
步骤一、建立包含有K个类别的分类体系;
步骤二、选取已知类别的图书作为训练图书,从每本训练图书中提取图书标签,所有训练图书的图书标签构成图书标签总集,并为图书标签总集中的每个图书标签分配一个唯一的序号;
步骤三、以训练图书为样本,构建、并训练一个多项分布模型,多项分布模型的输入是每本训练图书包含的所有图书标签和训练图书所属类别,输出是在不同类别下图书标签总集中的每个图书标签的概率;
步骤四、从待分类图书中挑选出其在图书标签总集中的图书标签,并构成待分类图书的标签集合W=(w1,w2,…,wd),其中,d是待分类图书所包含的图书标签数,w1、w2、…、wd分别是待分类图书所包含的图书标签,然后基于LDA主题模型,根据在不同类别下图书标签总集中的每个图书标签的概率,采用Gibbs采样方法为待分类图书所包含的每个图书标签采样分配一个类别,当达到收敛后,计算待分类图书的每个图书标签所属不同类别的概率分布,统计待分类图书所属每个类别的得分,从而据此获得待分类图书的所属类别,
步骤四进一步包括有:
步骤41、为待分类图书中的每个图书标签随机初始化一个类别,并将i初始化为1;
步骤42、从待分类图书的标签集合W中提取第i个图书标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州东信北邮信息技术有限公司,未经杭州东信北邮信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811584226.5/2.html,转载请声明来源钻瓜专利网。