[发明专利]自动编目方法及系统、计算机可读存储介质有效
申请号: | 201811484325.6 | 申请日: | 2018-12-06 |
公开(公告)号: | CN109766433B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 肖国荣;武学鸿 | 申请(专利权)人: | 湖南科创信息技术股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/289;G06F40/258 |
代理公司: | 长沙智嵘专利代理事务所(普通合伙) 43211 | 代理人: | 刘宏 |
地址: | 410009 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 编目 方法 系统 计算机 可读 存储 介质 | ||
1.一种自动编目方法,其特征在于:其包括以下步骤:
步骤S100:获取语料以建立语料数据库;
步骤S200:导入信息资源;
步骤S300:自动分词,对语料数据库中的语料和导入的信息资源进行自动分词;及
步骤S400:利用深度学习算法实现自动编目,对分词后的语料数据库进行深度学习以实现对信息资源的自动编目;
步骤S400具体包括以下步骤:
步骤S401a:建立词向量模型,采用深度学习算法对分词结果进行词向量模型训练,得到多维词向量模型;
步骤S402a:自动构建资源目录,通过词向量模型获得各词间距离为基础,采用聚类算法对词进行分类分级,构建资源目录以及各资源目录的关键词;或者,手动构建资源目录,手动录入或导入资源目录,同时对资源目录进行二级编辑,为资源目录分层分类,为各级目录节点增加描述信息,然后,对资源目录重定义,以所有词向量为基础,采用聚类算法对资源目录各级目录节点的描述信息进行重新定义,完善各级目录节点的描述信息;
步骤S403a:相似度建模,以词向量模型和资源目录为基础,构建短语和句子的相似度比较模型;及
步骤S404a:自动编目,利用相似度比较模型将导入的信息资源与构建的资源目录进行相似度比较,建立资源目录与信息资源的对应关系,或直接将信息资源添加至相应的资源目录,从而实现信息资源的自动编目。
2.如权利要求1所述的自动编目方法,其特征在于:
步骤S402a具体包括以下步骤:
步骤S4021a:使用词向量模型Vw将词转换为词向量的表达形式;
步骤S4022a:以每个词向量为中心,分别计算各个词向量与所有其它词向量之间的间距之和Di,并获得每个词向量与其它词向量间的最小间距Dmin和最大间距Dmax;
步骤S4023a:对各个词向量与其它词向量之间的间距之和Di进行升序,形成数列S;
步骤S4024a:确定球心词向量,取数列S前t个Di对应的词向量Vi,按S顺序取首位对应的词向量为球心,分别计算以Dij=Dmax/2的Dij为半径的球所覆盖t的多少的概率P,取Dij小且覆盖率高的词向量Vi为球心Vo;
步骤S4025a:划定资源目录纵向层数,设定资源目录的层数L,L≥1,以词向量Vo为球心,对Vo与各词向量间的距离应用正态分布进行资源目录层次划分,每u±3σ/L为一层,u+3σ之外归于外层,u-3σ之外归于内层;或者,取以λ为步长,分层计算词系的词层密度ρ,根据词层密度ρ变化曲线的规律进行分层;
步骤S4026a:确定资源目录各层横向分类以获得资源目录节点,步骤S4025a将词向量从球心Vo向外划分为k1,k2,k3……kh,h∈(1,L),采用聚类算法首先对k1进行聚类,各聚类中心词向量对应的词即为资源目录结点,下一层的词向量以上一层聚类所确定扇面为基础进行区域划分,然后对该层每个区域进行聚类,确定下级资源目录结点,迭代直到所有层所有区域分类完成;及
步骤S4027a:对每个聚类内部的词向量之间再应用正态分布,划定各词向量与资源目录结点的亲疏层次,并以此建立资源目录结点的关键词等级及相应描述信息,至此,资源目录自动构建完成。
3.如权利要求2所述的自动编目方法,其特征在于:
在步骤S4023a中,当词系在某一词向量附近大量聚集从而破坏Di的离散规律时,设定常数C,将Dij<C的q个相邻向量相加平均形成新的词向量i,用新的词向量i或q个向量中与词向量i最近的向量替换掉q个向量,词向量减少q-1个,对词向量进行收敛,然后转步骤S4022a进行迭代,直到所有Dij≥C;并不断调整C,迭代至数列S的顺序趋于稳定。
4.如权利要求1所述的自动编目方法,其特征在于:
步骤S403a中采用均值正弦法、层层筛选法或者两者结合进行建模。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南科创信息技术股份有限公司,未经湖南科创信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811484325.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于生成对抗网络的中文摘要生成方法和装置
- 下一篇:摘要生成方法及装置