[发明专利]一种地理信息服务元数据文本多层级多标签分类方法有效

专利信息
申请号: 201910942287.2 申请日: 2019-09-30
公开(公告)号: CN110704624B 公开(公告)日: 2021-08-10
发明(设计)人: 桂志鹏;张敏;彭德华;吴华意 申请(专利权)人: 武汉大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/387;G06F16/34;G06F40/284;G06F40/30;G06K9/62
代理公司: 湖北武汉永嘉专利代理有限公司 42102 代理人: 李丹
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 地理信息 服务 数据 文本 多层 标签 分类 方法
【权利要求书】:

1.一种地理信息服务元数据文本多层级多标签分类方法,其特征在于,包括以下步骤:

1)获取包含未标记样本与标记样本的地理信息服务元数据文本集进行文本预处理,将每条数据样本划分为文本特征词组合;

2)基于地理信息资源的领域应用主题类别设定一级分类目录,获得分类类别,即主题,然后生成与分类类别语义关联的典型词词表;

3)根据典型词词表对文本特征词进行筛选,滤除与典型词距离大于阈值的特征,获得根据主题分类筛选的特征子集;

4)选取经典多标签分类算法ML-KNN作为协同训练的一个基模型,记为H1

5)依据语料库计算特征到主题的语义距离,建立主题预测模型ML-CSW,将该模型作为协同训练的另一基模型,记为H2

6)基于上述两个基模型设计协同机制,为元数据文本匹配多标签主题,作为一级粗粒度主题分类结果;

7)选取某一分类标签对应的元数据文本,提取文本主题作为下一层级的细粒度主题,同时获得元数据文本与双层主题目录的匹配关系;

8)重复步骤7),得到不同级别的细粒度主题类别目录,以及元数据文本与主题目录间的匹配关系。

2.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤2)中基于地理信息资源的领域应用主题类别定义一级分类目录是基于国际地球观测组织针对地学领域提出的社会受益领域SBAs进行扩展而得到一级分类。

3.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤2)中典型词词表生成方式如下:

以SBAs为主题分类目录,抽取SWEET和WordNet定义中主题的上位词、下位词和同义词作为与主题语义相关的典型词,生成典型词词表。

4.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤3)中根据典型词词表对文本特征词进行筛选,具体如下:

S31、基于Word2vec算法将典型词与文本特征词表示为二维空间词向量;

S32、计算典型词与文本特征词向量间的余弦距离;

S33、设定距离阈值T,滤除掉与典型词余弦距离大于T的文本特征词。

5.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤5)中主题预测模型的建立方法具体如下:

S51、依据SWEET本体库与WordNet英语词汇网的网络定义,计算文本特征f与每个主题pi间的语义距离若特征f被SWEET收录,则依据SWEET网络直接基于Dijsktra算法得到特征f与每个主题pi间的语义距离若特征f未被SWEET收录,则逐层级向上查找被SWEET收录的上位词作为特征f的替代词,对WordNet中特征f与替代词的距离和SWEET中替代词与每个主题pi的距离求和,作为特征f与每个主题pi间的语义距离

S52、计算特征f与每个主题pi间的语义距离的最小值,并求倒作为文本特征f与所有主题P的最大语义相关度sf,其中,P为所有主题集合;

S53、基于文本特征与主题的最短距离定义特征权重,建立主题预测模型,为未标记样本预测多标签主题;

S54、假定训练集中共包含n个文本特征,则可计算得到训练集中所有特征到所有主题的最大语义相关度的向量S=[s1,s2,…,sn],将单条数据x的权重w(x)定义为1×n的向量,分别对应n个文本特征的权重,若特征f在样本x中出现,则定义为sf,否则定义为0;

S55、建立主题预测模型Y,其中F为特征的调整向量,α为平滑参数;基于标记样本数据,采用BP神经网络迭代优化训练模型Y,计算损失最小情况下F和α的最优解并得到最终的模型,依据模型预测未标记样本t的类别集合;

Y=w(x)*F+α。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910942287.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top