[发明专利]一种分类数据库的构建方法以及图书分类的方法在审
申请号: | 201711166694.6 | 申请日: | 2017-11-21 |
公开(公告)号: | CN107862069A | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 李海龙;禤程;张立 | 申请(专利权)人: | 广州星耀悦教育科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙)44288 | 代理人: | 莫之特,罗峰 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分类 数据库 构建 方法 以及 图书 | ||
技术领域
本发明涉及一种图书分类技术领域,尤其涉及一种分类数据库的构建方法以及图书分类的方法。
背景技术
目前,图书分类工作通常是人手工进行,但是由于图书分类的复杂性、多样性、模糊性等原因,使图书分类工作更加困难,准确性也不能得到绝对保证,仅仅提高工作人员的素质是根本不够的。
目前市面上的图书分类技术标准都基于中图法分类标准,中图法诞生于上世纪6~70年代,当时特殊的环境造成了分类标准时代的局限性,同时中图法是中国古代主流图书分类法的延伸,不符合当前知识文化发展的需要;中图法仿照美国国会图书分类的办法用22个大写字母作为大类代号,其中有的“附属学科”又用TH、TN等双字母标示。为了标榜其国产化,编制说明是用汉语拼音字母表示,不用W,以免与U认读混淆。然而实际运用中都以英语字母认读。有序性原则模糊,没有提示性和规律性。在中图法中有许多既可入此类又可入彼类的图书,或“宜入此”的模棱两可的现象。当我们输入某学科关键词检索,竟会出现三种或四、五种分类。标示与学科门类之间没有关联,没有提示性,分类号、索取号、重叠使用,标识繁琐,检索芜杂,种次号定义标准模糊,无法实现检索、目录、索引一体化和开放式自助分类编目,使中图法丧失了大众化的功能。
随着科技的迅速发展,使用新的计算机技术来解决图书分类的问题是十分有必要的。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种分类数据库的构建方法,其能解决分类数据库构建的技术问题。
本发明的目的之二在于提供一种计算机可读存储介质,其能解决分类数据库构建的技术问题。
本发明的目的之三在于提供一种图书分类的方法,其能解决图书分类确定的问题。
本发明的目的之四在于提供一种电子设备,其能解决图书分类确定的问题。
本发明的目的之五在于提供一种计算机可读存储介质,其能解决图书分类确定的问题。
本发明的目的之一采用如下技术方案实现:
一种分类数据库的构建方法,包括以下步骤:
获取步骤:获取训练图书的图书信息,所述图书信息包括图书内容信息;
分词步骤:对训练图书的图书内容信息进行分词处理以得分词词组;
数据库构建步骤:获取分词词组中的多个关键词以形成关键词组,并将关键词组以及与关键词组对应的分类条目存储以形成分类数据库。
进一步地,所述图书信息还包括作者信息,将作者信息以及与作者信息对应的分类条目存储于分类数据库。
本发明的目的之二采用如下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明目的之一中任意一项所述的方法。
本发明的目的之三采用如下技术方案实现:
一种图书分类的方法,包括以下步骤:
获取步骤:获取分类数据库与待分类图书的图书信息,所述图书信息包括图书内容信息,所述分类数据库包括分类条目以及与分类条目对应的关键词组;
分词步骤:对待分类图书的图书内容信息进行分词处理以获得分词词组;
分类确定步骤:获取分词词组中的多个关键词以形成特征词组,将特征词语与关键词组进行比对以确定待分类图书所对应的分类条目。
进一步地,在分类确定步骤中通过朴素贝叶斯算法以获得待分类图书的分类条目。
进一步地,在分词步骤具体包括以下子步骤:
分词处理步骤:对图书信息采用开源系统ICTCLAS进行分词处理;
删词步骤:根据通用词词库与停用词词库除去分词后的通用词与停用词以得分词词组。
进一步地,所述关键词为分词词组中的概率超过预设值的分词。
进一步地,所述图书信息还包括作者信息,所述分词确定步骤具体包括以下子步骤:
判断步骤:判断是否获取到与作者信息对应的分类条目,如果是,则执行相似性判断步骤,如果否,则执行计算步骤:
相似性判断步骤:确定待分类图书的特征词组与相应分类条目的关键词组之间的相似值,如果大于预设值,则该分类条目即为所述待分类图书的分类,如果小于预设值,则执行计算步骤;
计算步骤:通过朴素贝叶斯算法以得待分类图书的分类条目。
本发明的目的之四采用如下技术方案实现:
一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明目的之四中任意一项所述的图书分类的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州星耀悦教育科技有限公司,未经广州星耀悦教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711166694.6/2.html,转载请声明来源钻瓜专利网。