[发明专利]一种基于GHSOM算法的知识地图构建方法在审

专利信息
申请号: 201910800395.6 申请日: 2019-08-28
公开(公告)号: CN110737777A 公开(公告)日: 2020-01-31
发明(设计)人: 张浩洋;周良 申请(专利权)人: 南京航空航天大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G06F40/289;G06K9/62
代理公司: 32200 南京经纬专利商标代理有限公司 代理人: 姜慧勤
地址: 210016 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 知识地图 构建 算法 多层分级结构 数据挖掘技术 专业领域知识 关键词提取 数据预处理 技术手段 聚类分析 描述数据 输入向量 算法应用 文本数据 文件向量 中文分词 成长型 验算 文本 分类 改进
【说明书】:

发明公开了一种基于GHSOM算法的知识地图构建方法,GHSOM是多层分级结构,每一层包含数个独立的成长型SOM,通过增长规模来在一定详细程度上描述数据集。在构建知识地图时,首先对待分类的文本数据集进行数据预处理,通过结合中文分词、关键词提取、文件向量生成等技术手段,生成用于GHSOM算法验算的初始输入向量,然后利用GHSOM算法对文本进行聚类分析,并最终建立知识地图。本发明的先进性主要体现在更短的计算时间,并提供更丰富的有序性表达能力。本发明采用最新的数据挖掘技术成果,将改进的GHSOM算法应用于知识地图的构建,并尝试使用这种方法建立专门领域的知识地图。结果表明,利用该方法构建的专业领域知识地图在地图的精确率和召回率上有显著的提高。

技术领域

本发明涉及一种基于GHSOM算法的知识地图构建方法,属于数据挖掘技术领域。

背景技术

随着计算机技术的飞速发展,特别是Internet技术的不断应用,人们利用网络信息技术产生和搜集数据的能力有了大幅度的提高,数据呈现了飞快的增长趋势。如何从海量的数据中获取所需要的信息成为了一个迫切需要研究的问题。面对这样的挑战,数据挖掘(Data Mining)技术应运而生,使用数据挖掘技术能够从这些海量数据中获取隐含的有用信息。然而,由于数据的爆炸性增长,如何使用数据挖掘技术快速有效地从海量数据中获取隐含有用的信息是目前迫切需要解决的问题。

布鲁克斯提出的“知识地图”主要是指人类的客观知识,他认为人类的知识结构可以绘制成以各个知识单元概念为节点的学科认识地图。在知识地图构建方法方面的研究与尝试主要有:潘旭伟等提出了面向知识管理的知识建模技术,对知识载体、知识内容信息和知识情境进行建模。苏海等利用5W1H方法对产品开发过程中的知识元进行建模并构建知识地图。叶范波等对产品设计过程的知识进行了定义和描述。潘星等给出了一种基于概念聚类的知识地图模型。此外,主题图中的主题建模方法以及本体建模技术可以应用到知识地图的知识建模中,利用主题、本体建模工具可以提高建模的效率及准确性,节省人力和时间。现有常用的本体编辑工具有Ontosaurus、WebOnto、Protege2000等,常用的本体及主题图描述语言有KIF、Ontolingua、CycL等。利用这些描述语言及辅助构建工具可以统一知识的描述格式,有利于知识在不同平台之间共享,有利于知识地图的及时更新及知识概念的合并。利用本体对知识地图进行构建的一些例子有:苑忠磊等研究了面向流程的企业知识地图及其本体实现;潘有能等研究了基于本体的组织知识地图构建;褚芳芳等研究了制造企业知识地图及其本体实现。

在大数据不断发展的新阶段,知识地图的构建应该结合数据挖掘及人工智能技术。数据挖掘和人工智能技术可以应用于知识地图模型中资源层与描述层之间。数据挖掘中的关联挖掘可以帮助从数据库、知识库及文本中发现概念,丰富已有知识地图中的概念,关联规则的发现可以帮助提取概念之间的层次性关系及确定适当的抽象层次等。在应用数据挖掘及人工智能技术构建知识地图方面:陈文华等利用文本挖掘中的聚类技术对文本进行聚类,并提取出代表文本的关键词以辅助知识地图的构建。邱登裕等研究了构建企业知识地图时使用信息检索及数据挖掘技术应考虑的问题及存在的挑战,应用数据挖掘技术实现了将企业中的文件阶层式分类架构转换成知识地图形式,并且设计了文件之间的关联规则,预估可能相关的所有文件,将企业中的文件做适当的呈现,精确地挖掘出关联文件。H.Chouyin研究了用于管理项目知识的情境导向型知识地图,分析挖掘项目参与人员的项目经验记录,包括项目背景情境信息、人员技能信息等,当新项目组建时提供相关项目经验和推荐项目参与人员。Lin Furen等研究了对等网环境下知识地图的构建,提出了基于ESOM算法的知识地图构建的方法。

在已有的文本聚类算法中,SOM算法拥有一个显著的缺点,即它的架构必须预先地被定义,动态增长的SOM变体往往会产生难以处理的巨大地图。这就导致了GHSOM算法的产生,它根据数据分布以分层方式增长,允许在数据的子部分中进行层次分解。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910800395.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top