[发明专利]一种开放数据集的数据关联方法及系统有效
申请号: | 202110317613.8 | 申请日: | 2021-03-25 |
公开(公告)号: | CN112925875B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 范冰冰;郭光雄 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F16/33;G06N20/00;G06F40/289;G06F40/295 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510631 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 开放 数据 关联 方法 系统 | ||
1.一种开放数据集的数据关联方法,其特征在于,包括下述步骤:
对开放数据集进行数据预处理,将不同文件格式的数据集转化为json文件格式;
对预处理完成后的开放数据集进行分析,获取开放数据集的特征数据,所述的开放数据集的特征数据具体为数据集元数据描述和数据元数据描述;
使用机器学习技术解析数据集元数据描述,得到开放数据集的主题;
根据数据元数据描述和数据集的主题进行关联分析,得到关联置信度,具体为:
采用正则表达式过滤数据集的非文本数据项,得到数据集的文本数据项;
分析数据元数据描述和数据集的文本数据项,将数据项分为实体数据项和属性数据项并得到实体数据项集和属性数据项集;
分析数据集元数据描述,确定实体数据项中的主实体数据项和从实体数据项;
根据数据集的主题
计算主实体数据项、候选关系集和从实体数据项集的关联置信度;
根据关联置信度,构建实体数据项之间的关联描述;
将获得的实体数据项之间的关联描述存入数据库。
2.根据权利要求1所述一种开放数据集的数据关联方法,其特征在于,所述使用机器学习技术解析数据集元数据描述,得到数据集的主题,具体包括以下步骤:
使用分词器对数据集元数据描述进行分词得到分词结果;
根据分词结果计算该数据集元数据描述的tf-idf特征向量;
对该数据集元数据描述的tf-idf特征向量进行奇异值分解,得到该数据集的主题
3.根据权利要求1所述一种开放数据集的数据关联方法,其特征在于,
所述实体数据项所描述的是客观存在且可相互区别的事物;
所述属性数据项所描述的是实体的属性;
所述主实体数据项为该数据集描述的实体;
所述从实体数据项为该数据集所描述实体的属性所包含的实体。
4.根据权利要求1所述一种开放数据集的数据关联方法,其特征在于,所述分析数据元数据描述和数据集中的文本数据项,将数据项分为实体数据项和属性数据项并得到实体数据项集和属性数据项集,具体包括以下步骤:
使用分词器对每个数据中的每一项数据进行分词得到该数据项的词集合;
根据词集合向词向量库查询得到对应的词向量集合;
将词向量集合输入到已训练好的二分类器,得到分类分数,若分类分数高于阈值
根据分类结果,将数据项分为实体数据项集和属性数据项集。
5.根据权利要求1所述一种开放数据集的数据关联方法,其特征在于,所述确定实体数据项中的主实体数据项和从实体数据项具体包括以下步骤:
使用分词器对数据集名称进行分词得到该数据集名称的词集合;
根据词集合向词向量库查询得到对应的词向量集合;
使用实体识别算法分析数据集元名称的词向量集合得到该数据集主实体的类别;
根据数据集主实体类别得到与主实体类别相同的候选实体数据项集;
对数据集名称词向量集合进行求和得到数据集名称向量;
对候选实体数据项集的每个实体数据项的词向量集合进行求和得到对应的实体数据项向量表示;
计算数据集名称向量与候选实体数据集中每个实体数据项向量的余弦相似度,根据余弦相似度进行排序,排名最高的实体数据项,则认为该实体数据项为主实体数据项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110317613.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种传热导湿织物结构及其构建方法
- 下一篇:触控笔和电子设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置