[发明专利]一种开放数据集的数据关联方法及系统有效

专利信息
申请号: 202110317613.8 申请日: 2021-03-25
公开(公告)号: CN112925875B 公开(公告)日: 2023-08-18
发明(设计)人: 范冰冰;郭光雄 申请(专利权)人: 华南师范大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/35;G06F16/33;G06N20/00;G06F40/289;G06F40/295
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 李斌
地址: 510631 广东省广州市天*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 开放 数据 关联 方法 系统
【权利要求书】:

1.一种开放数据集的数据关联方法,其特征在于,包括下述步骤:

对开放数据集进行数据预处理,将不同文件格式的数据集转化为json文件格式;

对预处理完成后的开放数据集进行分析,获取开放数据集的特征数据,所述的开放数据集的特征数据具体为数据集元数据描述和数据元数据描述;

使用机器学习技术解析数据集元数据描述,得到开放数据集的主题;

根据数据元数据描述和数据集的主题进行关联分析,得到关联置信度,具体为:

采用正则表达式过滤数据集的非文本数据项,得到数据集的文本数据项;

分析数据元数据描述和数据集的文本数据项,将数据项分为实体数据项和属性数据项并得到实体数据项集和属性数据项集;

分析数据集元数据描述,确定实体数据项中的主实体数据项和从实体数据项;

根据数据集的主题T和主实体类别在主题关系库中查询得到候选关系集;

计算主实体数据项、候选关系集和从实体数据项集的关联置信度;

根据关联置信度,构建实体数据项之间的关联描述;

将获得的实体数据项之间的关联描述存入数据库。

2.根据权利要求1所述一种开放数据集的数据关联方法,其特征在于,所述使用机器学习技术解析数据集元数据描述,得到数据集的主题,具体包括以下步骤:

使用分词器对数据集元数据描述进行分词得到分词结果;

根据分词结果计算该数据集元数据描述的tf-idf特征向量;

对该数据集元数据描述的tf-idf特征向量进行奇异值分解,得到该数据集的主题T

3.根据权利要求1所述一种开放数据集的数据关联方法,其特征在于,

所述实体数据项所描述的是客观存在且可相互区别的事物;

所述属性数据项所描述的是实体的属性;

所述主实体数据项为该数据集描述的实体;

所述从实体数据项为该数据集所描述实体的属性所包含的实体。

4.根据权利要求1所述一种开放数据集的数据关联方法,其特征在于,所述分析数据元数据描述和数据集中的文本数据项,将数据项分为实体数据项和属性数据项并得到实体数据项集和属性数据项集,具体包括以下步骤:

使用分词器对每个数据中的每一项数据进行分词得到该数据项的词集合;

根据词集合向词向量库查询得到对应的词向量集合;

将词向量集合输入到已训练好的二分类器,得到分类分数,若分类分数高于阈值α,则该数据项为实体数据项,反之,则为属性数据项;其中α为常值,具体视情况设置;

根据分类结果,将数据项分为实体数据项集和属性数据项集。

5.根据权利要求1所述一种开放数据集的数据关联方法,其特征在于,所述确定实体数据项中的主实体数据项和从实体数据项具体包括以下步骤:

使用分词器对数据集名称进行分词得到该数据集名称的词集合;

根据词集合向词向量库查询得到对应的词向量集合;

使用实体识别算法分析数据集元名称的词向量集合得到该数据集主实体的类别;

根据数据集主实体类别得到与主实体类别相同的候选实体数据项集;

对数据集名称词向量集合进行求和得到数据集名称向量;

对候选实体数据项集的每个实体数据项的词向量集合进行求和得到对应的实体数据项向量表示;

计算数据集名称向量与候选实体数据集中每个实体数据项向量的余弦相似度,根据余弦相似度进行排序,排名最高的实体数据项,则认为该实体数据项为主实体数据项。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110317613.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top