[发明专利]一种文献自动分类方法在审

专利信息
申请号: 201811493641.X 申请日: 2018-12-07
公开(公告)号: CN109284391A 公开(公告)日: 2019-01-29
发明(设计)人: 张云秋;朱祥;李博诚 申请(专利权)人: 吉林大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36
代理公司: 北京高沃律师事务所 11569 代理人: 程华
地址: 130000 吉林*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分类 自动分类 词典数据库 快速自动分类 文献关键词 信息确定 构建 查找
【说明书】:

发明公开一种文献自动分类方法,所述方法包括:构建词典数据库;获取待分类文献的关键词;根据所述待分类文献的关键词在所述词典数据库中进行查找,得到待分类文献关键词的分类号信息;根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类。本发明中的该方法,能够实现对文献的快速自动分类。

技术领域

本发明涉及文献分类领域,特别是涉及一种文献自动分类方法。

背景技术

随着期刊电子化的发展,针对数字文献的分类标引工作长期以来都是由编目人员手工去完成,既费时又费力。且由于信息的模糊性以及数字文献种类、数量的剧增,仅靠提高编目人员的业务素质来保证文献分类标引的准确性是不现实的。而通过计算机直接对文献信息进行过滤、分类,把用户真正需要的部分提交给用户,就能把用户从烦琐的文献处理工作中解放出来,更加快捷地区分不同类型文献,使大量的无序的文献系统化,极大地提高信息的利用率。通过文献自动分类系统,能够很好地帮助用户整理、获取信息,在提高信息检索速度和准确率方面意义重大,且具有很重要的研究价值。

目前,中图法框架下的文献自动分类方法主要分为两种,一种是基于知识库的分类方法,一种是基于机器学习的分类方法。

其中,基于知识库的分类方法,王爽以已有的标引经验数据为基础,从构建知识库,自动分词,特征项选取,特征项权重计算,分类算法几个方面进行论述,最后设计并实现了一个基于知识库的文档自动分类系统。张玉芳以数据库中标引经验数据为基础,结合《中图法》的类目层次结构,构建了一个多层次知识库,并基于该知识库实现了自顶向下的多层次文档自动分类。何琳等人,在知识库方法的基础之上,通过引进机器学习的方法测定关键词和类目概念之间的关联度,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配。这项研究也标示着单靠知识库的方法已经不能完全解决《中图法》分类体系下的自动分类问题。基于机器学习的分类方法,中国知网的孙雄勇等,利用CNKI海量的己经经过人工标注的期刊语料,对近20万的短语词汇进行训练,为每一个短语赋予相应的一个或多个中图分类号,并训练获得每一个短语的相应权重。然后在此基础上,计算新文献的中图分类号,并引入了置信度概念,实现了分离出高准确率结果集。赵纪元等人研究了基于中图法的学术文献自动分类方法,该方法结合了CHI特征选择、后验概率训练以及TF-IDF概率加权等方法,实现了对50余万篇学术期刊的自动分类。同时研究了以二元词汇作为特征进一步修正上述结果,在保证正确率基本不变的情况下,使分类的输出比例大大提升。在《中图法》分类体系下应用机器学习方法进行自动分类的研究,较早的有文献,但试验材料中使用的文本分别是新闻稿、网页和期刊论文。直到2010年以后才有文献针对图书进行自动分类研究。王昊等人尝试将BP神经网络和支持向量机等机器学习算法引入到书目分类中,建立了面向中图法的基于机器学习的书目层次分类系统模型,提出了采用特征加权方式描述书目和浅层次分类体系构建的设计思路,并通过大规模实验验证了该模型的可行性和合理性,基本上解决了没有主题标注情况下书目的自动分类问题。但是机器学习方法存在词-文本矩阵维度较高、不易计算等缺陷。

发明内容

本发明的目的是提供一种文献自动分类方法,实现对文献的自动快速分类。

为实现上述目的,本发明提供了如下方案:

一种文献自动分类方法,所述方法包括:

构建词典数据库;

获取待分类文献的关键词;

根据所述待分类文献的关键词在所述词典数据库中进行查找,得到待分类文献关键词的分类号信息;

根据所述待分类文献的关键词的分类号信息确定待分类文献的分类号,实现文献的自动分类。

可选的,所述构建词典数据库具体包括:

获取文献,提取文献中的关键词以及分类号;

对所述文献中的关键词进行数据清洗;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811493641.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top