[发明专利]自动编目方法及系统、计算机可读存储介质有效
申请号: | 201811484325.6 | 申请日: | 2018-12-06 |
公开(公告)号: | CN109766433B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 肖国荣;武学鸿 | 申请(专利权)人: | 湖南科创信息技术股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/289;G06F40/258 |
代理公司: | 长沙智嵘专利代理事务所(普通合伙) 43211 | 代理人: | 刘宏 |
地址: | 410009 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 编目 方法 系统 计算机 可读 存储 介质 | ||
本发明公开了一种自动编目方法,其包括以下步骤:步骤S100:获取语料以建立语料数据库;步骤S200:导入信息资源;步骤S300:自动分词,对语料数据库中的语料和导入的信息资源进行自动分词;及步骤S400:利用深度学习算法实现自动编目,对分词后的语料数据库进行深度学习以实现对信息资源的自动编目。本发明的自动编目方法及系统和计算机可读取的存储介质,基于自然语言处理及深度学习对信息资源进行自动编目,提高资源编目效率和编目质量,降低了编目成本,消除人工编目过程中的人为错误,同时因自动编目方面的科学性,有力的提高了资料检索效率和精确度。
技术领域
本发明涉及自动编目技术领域,特别地,涉及一种自动编目方法及系统和计算机可读取的存储介质。
背景技术
信息资源的编目工作是建立目录资源与数据之间相互关系的重要手段和方法,是数据信息进行分类和归档的重要途径。如果没有编目工作,资源目录就只剩下一个空空的框架,没有具体的信息资源内容来充实和支撑,而信息资源也被完全孤立,无法进行检索、分类和共享。
目前,对信息资源的编目工作,一般是编目人员通过人工编目的方法进行的。在如今的大数据时代,随着信息资源的飞速增加,对于编目工作人员来说,编目任务越来越繁重而复杂,编目人员一般要经过分析探讨才能对信息资源进行正确的分类和编目,因此,不仅使得编目工作变得越来越复杂,而且编目过程所花费的时间也越来越多,效率越来越低,进而导致编目的质量也受到一定的影响,所以,现有的编目方法已经无法满足编目任务的需要。
发明内容
本发明提供了一种自动编目方法及系统和计算机可读的存储介质,以解决现有技术的人工编目方法工作效率低、编目质量差的技术问题。
根据本发明的一个方面,提供一种自动编目方法,其包括以下步骤:
步骤S100:获取语料以建立语料数据库;
步骤S200:导入信息资源;
步骤S300:自动分词,对语料数据库中的语料和导入的信息资源进行自动分词;及
步骤S400:利用深度学习算法实现自动编目,即对分词后的语料数据库进行深度学习以实现对信息资源的自动编目。
进一步地,步骤S400具体包括以下步骤:
步骤S401a:建立词向量模型,采用深度学习算法对分词结果进行词向量模型训练,得到多维词向量模型;
步骤S402a:自动构建资源目录,通过词向量模型获得各词间距离为基础,采用聚类算法对词进行分类分级,构建资源目录以及各资源目录的关键词;
步骤S403a:相似度建模,以词向量模型和资源目录为基础,构建短语和句子的相似度比较模型;及
步骤S404a:自动编目,利用相似度比较模型将导入的信息资源与构建的资源目录进行相似度比较,建立资源目录与信息资源的对应关系,或直接将信息资源添加至相应的资源目录,从而实现信息资源的自动编目。
进一步地,步骤S402a具体包括以下步骤:
步骤S4021a:使用词向量模型Vw将词转换为词向量的表达形式;
步骤S4022a:以每个词向量为中心,分别计算各个词向量与所有其它词向量之间的间距之和Di,并获得每个词向量与其它词向量间的最小间距Dmin和最大间距Dmax;
步骤S4023a:对各个词向量与其它词向量之间的间距之和Di进行升序,形成数列S;
步骤S4024a:确定球心词向量,取数列S前t个Di对应的词向量Vi,按S顺序取首位对应的词向量为球心,分别计算以Dij=Dmax/2为半径的球所覆盖t的多少的概率P,取Dij较小且覆盖率较高的词向量Vi为球心Vo;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南科创信息技术股份有限公司,未经湖南科创信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811484325.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于生成对抗网络的中文摘要生成方法和装置
- 下一篇:摘要生成方法及装置