[发明专利]一种地理信息服务元数据文本多层级多标签分类方法有效
申请号: | 201910942287.2 | 申请日: | 2019-09-30 |
公开(公告)号: | CN110704624B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 桂志鹏;张敏;彭德华;吴华意 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/387;G06F16/34;G06F40/284;G06F40/30;G06K9/62 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 李丹 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 地理信息 服务 数据 文本 多层 标签 分类 方法 | ||
1.一种地理信息服务元数据文本多层级多标签分类方法,其特征在于,包括以下步骤:
1)获取包含未标记样本与标记样本的地理信息服务元数据文本集进行文本预处理,将每条数据样本划分为文本特征词组合;
2)基于地理信息资源的领域应用主题类别设定一级分类目录,获得分类类别,即主题,然后生成与分类类别语义关联的典型词词表;
3)根据典型词词表对文本特征词进行筛选,滤除与典型词距离大于阈值的特征,获得根据主题分类筛选的特征子集;
4)选取经典多标签分类算法ML-KNN作为协同训练的一个基模型,记为H1;
5)依据语料库计算特征到主题的语义距离,建立主题预测模型ML-CSW,将该模型作为协同训练的另一基模型,记为H2;
6)基于上述两个基模型设计协同机制,为元数据文本匹配多标签主题,作为一级粗粒度主题分类结果;
7)选取某一分类标签对应的元数据文本,提取文本主题作为下一层级的细粒度主题,同时获得元数据文本与双层主题目录的匹配关系;
8)重复步骤7),得到不同级别的细粒度主题类别目录,以及元数据文本与主题目录间的匹配关系。
2.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤2)中基于地理信息资源的领域应用主题类别定义一级分类目录是基于国际地球观测组织针对地学领域提出的社会受益领域SBAs进行扩展而得到一级分类。
3.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤2)中典型词词表生成方式如下:
以SBAs为主题分类目录,抽取SWEET和WordNet定义中主题的上位词、下位词和同义词作为与主题语义相关的典型词,生成典型词词表。
4.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤3)中根据典型词词表对文本特征词进行筛选,具体如下:
S31、基于Word2vec算法将典型词与文本特征词表示为二维空间词向量;
S32、计算典型词与文本特征词向量间的余弦距离;
S33、设定距离阈值T,滤除掉与典型词余弦距离大于T的文本特征词。
5.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤5)中主题预测模型的建立方法具体如下:
S51、依据SWEET本体库与WordNet英语词汇网的网络定义,计算文本特征f与每个主题pi间的语义距离若特征f被SWEET收录,则依据SWEET网络直接基于Dijsktra算法得到特征f与每个主题pi间的语义距离若特征f未被SWEET收录,则逐层级向上查找被SWEET收录的上位词作为特征f的替代词,对WordNet中特征f与替代词的距离和SWEET中替代词与每个主题pi的距离求和,作为特征f与每个主题pi间的语义距离
S52、计算特征f与每个主题pi间的语义距离的最小值,并求倒作为文本特征f与所有主题P的最大语义相关度sf,其中,P为所有主题集合;
S53、基于文本特征与主题的最短距离定义特征权重,建立主题预测模型,为未标记样本预测多标签主题;
S54、假定训练集中共包含n个文本特征,则可计算得到训练集中所有特征到所有主题的最大语义相关度的向量S=[s1,s2,…,sn],将单条数据x的权重w(x)定义为1×n的向量,分别对应n个文本特征的权重,若特征f在样本x中出现,则定义为sf,否则定义为0;
S55、建立主题预测模型Y,其中F为特征的调整向量,α为平滑参数;基于标记样本数据,采用BP神经网络迭代优化训练模型Y,计算损失最小情况下F和α的最优解并得到最终的模型,依据模型预测未标记样本t的类别集合;
Y=w(x)*F+α。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910942287.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置