[发明专利]一种基于GHSOM算法的知识地图构建方法在审
申请号: | 201910800395.6 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110737777A | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 张浩洋;周良 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 32200 南京经纬专利商标代理有限公司 | 代理人: | 姜慧勤 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于GHSOM算法的知识地图构建方法,GHSOM是多层分级结构,每一层包含数个独立的成长型SOM,通过增长规模来在一定详细程度上描述数据集。在构建知识地图时,首先对待分类的文本数据集进行数据预处理,通过结合中文分词、关键词提取、文件向量生成等技术手段,生成用于GHSOM算法验算的初始输入向量,然后利用GHSOM算法对文本进行聚类分析,并最终建立知识地图。本发明的先进性主要体现在更短的计算时间,并提供更丰富的有序性表达能力。本发明采用最新的数据挖掘技术成果,将改进的GHSOM算法应用于知识地图的构建,并尝试使用这种方法建立专门领域的知识地图。结果表明,利用该方法构建的专业领域知识地图在地图的精确率和召回率上有显著的提高。 | ||
搜索关键词: | 知识地图 构建 算法 多层分级结构 数据挖掘技术 专业领域知识 关键词提取 数据预处理 技术手段 聚类分析 描述数据 输入向量 算法应用 文本数据 文件向量 中文分词 成长型 验算 文本 分类 改进 | ||
【主权项】:
1.一种基于GHSOM算法的知识地图构建方法,其特征在于,包括如下步骤:/n步骤1,收集待处理文本,生成文本集,对文本集进行数据预处理,得到文件向量;/n步骤2,将步骤1得到的全部文件向量作为GHSOM算法的初始输入向量,计算第0层神经单元的量化误差;/n步骤3,构建第1层映射为2*2个神经单元的SOM,采用K-means方法对第1层每个神经单元进行初始化,并设置当前网络为活动网络,活动网络层级数为1;/n步骤4,采用SOM训练算法训练当前拥有的活动网络;/n步骤5,训练完成后,计算活动网络内所有神经单元的量化误差以及当前活动网络的平均量化误差;/n步骤6,判断步骤5计算得到的平均量化误差是否达到级内终止条件,若达到则转入步骤7,否则,选取活动网络中量化误差最大的神经单元标记为误差神经元,计算误差神经元邻域内各神经单元到误差神经元的距离,将其中最大距离对应的神经单元作为误差神经元的最远邻近神经元,在误差神经元和最远邻近神经元之间插入一行新的神经单元,重置SOM训练算法的参数,并返回步骤4;/n步骤7,对活动网络所有神经单元逐个验证全局终止条件,当所有神经单元均满足全局终止条件时,完成对当前活动网络的验证;当存在神经单元不满足全局终止条件时,对于不满足全局终止条件的神经单元,计算该单元四个邻居的模型向量值,然后构建以这四个模型向量值为初始值的2*2新映射网络,并设置新映射网络为活动网络,层级数加1,将映射在该单元上的文件向量作为训练数据,返回步骤4;/n步骤8,完成一个活动网络的验证时,将该活动网络的父亲单元所在网络设置为活动网络,当层级数为1时聚类结束,否则层级数减1,并返回步骤7;/n步骤9,根据聚类结果,为不同聚类集合选定主题词,并建立原始文本段落至知识地图聚类结果的链接。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910800395.6/,转载请声明来源钻瓜专利网。