[发明专利]一种分类数据库的构建方法以及图书分类的方法在审
申请号: | 201711166694.6 | 申请日: | 2017-11-21 |
公开(公告)号: | CN107862069A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 李海龙;禤程;张立 | 申请(专利权)人: | 广州星耀悦教育科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙)44288 | 代理人: | 莫之特,罗峰 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分类 数据库 构建 方法 以及 图书 | ||
1.一种分类数据库的构建方法,其特征在于,包括以下步骤:
获取步骤:获取训练图书的图书信息,所述图书信息包括图书内容信息;
分词步骤:对训练图书的图书内容信息进行分词处理以获得分词词组;
数据库构建步骤:获取分词词组中的多个关键词以形成关键词组,并将关键词组以及与关键词组对应的分类条目存储以形成分类数据库。
2.如权利要求1所述的分类数据库的构建方法,其特征在于,所述图书信息还包括作者信息,将作者信息以及与作者信息对应的分类条目存储于分类数据库。
3.如权利要求1所述的分类数据库的构建方法,其特征在于,所述分类条目包括科普、外语、教育、文学、人文综合、通识和艺术创意。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-3任意一项所述的方法。
5.一种图书分类的方法,其特征在于,包括以下步骤:
获取步骤:获取分类数据库与待分类图书的图书信息,所述图书信息包括图书内容信息,所述分类数据库包括分类条目以及与分类条目对应的关键词组;
分词步骤:对待分类图书的图书内容信息进行分词处理以获得分词词组;
分类确定步骤:获取分词词组中的多个关键词以形成特征词组,将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。
6.如权利要求5所述的图书分类的方法,其特征在于,在分词步骤具体包括以下子步骤:
分词处理步骤:对图书信息采用开源系统ICTCLAS进行分词处理;
删词步骤:根据通用词词库与停用词词库除去分词后的通用词与停用词以获得分词词组。
7.如权利要求5所述的图书分类的方法,其特征在于,所述关键词为分词词组中的概率超过预设值的分词。
8.如权利要求5所述的图书分类的方法,其特征在于,所述图书信息还包括作者信息,所述分词确定步骤具体包括以下子步骤:
判断步骤:判断是否获取到与作者信息对应的分类条目,如果是,则执行相似性判断步骤,如果否,则执行计算步骤:
相似性判断步骤:确定待分类图书的特征词组与相应分类条目的关键词组之间的相似值,如果大于预设值,则该分类条目即为所述待分类图书的分类,如果小于预设值,则执行计算步骤;
计算步骤:通过朴素贝叶斯算法以得待分类图书的分类条目。
9.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求5-8中任意一项所述的图书分类的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求5-8任意一项所述图书分类的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州星耀悦教育科技有限公司,未经广州星耀悦教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711166694.6/1.html,转载请声明来源钻瓜专利网。