[发明专利]一种基于LDA主题模型的图书自动分类方法有效
申请号: | 201811584226.5 | 申请日: | 2018-12-24 |
公开(公告)号: | CN109726286B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 符俊涛;王超芸;李曲;应文佳;马堃;沈钦壮 | 申请(专利权)人: | 杭州东信北邮信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/258 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lda 主题 模型 图书 自动 分类 方法 | ||
1.一种基于LDA主题模型的图书自动分类方法,其特征在于,包括有:
步骤一、建立包含有K个类别的分类体系;
步骤二、选取已知类别的图书作为训练图书,从每本训练图书中提取图书标签,所有训练图书的图书标签构成图书标签总集,并为图书标签总集中的每个图书标签分配一个唯一的序号;
步骤三、以训练图书为样本,构建、并训练一个多项分布模型,多项分布模型的输入是每本训练图书包含的所有图书标签和训练图书所属类别,输出是在不同类别下图书标签总集中的每个图书标签的概率;
步骤四、从待分类图书中挑选出其在图书标签总集中的图书标签,并构成待分类图书的标签集合W=(w1,w2,…,wd),其中,d是待分类图书所包含的图书标签数,w1、w2、…、wd分别是待分类图书所包含的图书标签,然后基于LDA主题模型,根据在不同类别下图书标签总集中的每个图书标签的概率,采用Gibbs采样方法为待分类图书所包含的每个图书标签采样分配一个类别,当达到收敛后,计算待分类图书的每个图书标签所属不同类别的概率分布,统计待分类图书所属每个类别的得分,从而据此获得待分类图书的所属类别,
步骤四进一步包括有:
步骤41、为待分类图书中的每个图书标签随机初始化一个类别,并将i初始化为1;
步骤42、从待分类图书的标签集合W中提取第i个图书标签;
步骤43、计算所提取的第i个图书标签所属不同类别的概率分布:其中,p(zi=k,wi)是第i个图书标签wi所属分类体系中的第k个类别的概率,k=1、2、…、或K,zi是wi的类别,v是待分类图书的第i个图书标签在图书标签总集中的序号,pkv是在第k个类别下图书标签总集中的第v个图书标签的概率,其值由步骤三计算获得,nk(-i)、nk'(-i)分别是从待分类图书的标签集合W的所有图书标签中剔除第i个图书标签后所属第k、k'个类别的标签数,αk、αk'是第k、k'个类别的调整参数;
步骤44、根据第i个图书标签所属不同类别的概率分布中,随机采样获得一个类别,将第i个图书标签的类别更新成采样后获得的类别;
步骤45、将i更新为i+1,并判断更新后的i是否大于d,如果是,则表示已更新完一遍标签集合W中的所有图书标签,继续下一步;如果否,则转向步骤42;
步骤46、判断当前一遍更新的W中每个图书标签的类别和距离当前最近一遍更新的每个图书标签的类别一致度是否达到收敛阈值,如果是,则表示已达到收敛;如果否,则更新i=1,然后转向步骤42,继续下一遍更新W中的每个图书标签的类别。
2.根据权利要求1所述的方法,其特征在于,步骤二中,运用NLP技术,对训练图书的正文部分章节进行分词和词性标注,提取有效名词作为图书标签。
3.根据权利要求1所述的方法,其特征在于,步骤三中,多项分布模型输出的在不同类别下图书标签总集中的每个图书标签的概率的计算公式是:在第k个类别下图书标签总集中的第v个图书标签的概率pkv是所属第k个类别的所有图书中第v个图书标签的个数和所属第k个类别的所有图书中所有图书标签的个数的比值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州东信北邮信息技术有限公司,未经杭州东信北邮信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811584226.5/1.html,转载请声明来源钻瓜专利网。