[发明专利]一种基于LDA主题模型的图书自动分类方法有效
申请号: | 201811584226.5 | 申请日: | 2018-12-24 |
公开(公告)号: | CN109726286B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 符俊涛;王超芸;李曲;应文佳;马堃;沈钦壮 | 申请(专利权)人: | 杭州东信北邮信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/258 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于LDA主题模型的图书自动分类方法,包括:建立分类体系;选取已知类别图书作为训练图书,所有训练图书的标签构成图书标签总集,并为图书标签总集中每个标签分配一个唯一序号;构建、并训练一个多项分布模型,多项分布模型的输入是训练图书包含的图书标签和训练图书类别,输出是在不同类别下图书标签总集中每个标签的概率;从待分类图书中挑选出图书标签,并构成待分类图书的标签集合,然后基于LDA主题模型,采用Gibbs采样方法为待分类图书所包含的每个图书标签采样分配一个类别,当达到收敛后,统计待分类图书所属每个类别的得分,据此获得待分类图书所属类别。本发明属于信息技术领域,能基于LDA主题模型实现图书自动分类。 | ||
搜索关键词: | 一种 基于 lda 主题 模型 图书 自动 分类 方法 | ||
【主权项】:
1.一种基于LDA主题模型的图书自动分类方法,其特征在于,包括有:步骤一、建立包含有K个类别的分类体系;步骤二、选取已知类别的图书作为训练图书,从每本训练图书中提取图书标签,所有训练图书的图书标签构成图书标签总集,并为图书标签总集中的每个图书标签分配一个唯一的序号;步骤三、以训练图书为样本,构建、并训练一个多项分布模型,多项分布模型的输入是每本训练图书包含的所有图书标签和训练图书所属类别,输出是在不同类别下图书标签总集中的每个图书标签的概率;步骤四、从待分类图书中挑选出其在图书标签总集中的图书标签,并构成待分类图书的标签集合W=(w1,w2,…,wd),其中,d是待分类图书所包含的图书标签数,w1、w2、…、wd分别是待分类图书所包含的图书标签,然后基于LDA主题模型,根据在不同类别下图书标签总集中的每个图书标签的概率,采用Gibbs采样方法为待分类图书所包含的每个图书标签采样分配一个类别,当达到收敛后,计算待分类图书的每个图书标签所属不同类别的概率分布,统计待分类图书所属每个类别的得分,从而据此获得待分类图书的所属类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州东信北邮信息技术有限公司,未经杭州东信北邮信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811584226.5/,转载请声明来源钻瓜专利网。