[发明专利]一种生成结构化数据的元数据的方法与装置在审

专利信息
申请号: 201510202637.3 申请日: 2015-04-24
公开(公告)号: CN104850590A 公开(公告)日: 2015-08-19
发明(设计)人: 孔亮;王丽敏 申请(专利权)人: 百度在线网络技术(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京汉昊知识产权代理事务所(普通合伙) 11370 代理人: 罗朋;赵晶
地址: 100085 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 生成 结构 数据 方法 装置
【权利要求书】:

1.一种生成结构化数据的元数据的方法,其中,该方法包括:

a解析结构化数据,以获得所述结构化数据所对应的一个或多个数组,其中每个数组对应于一个数据类型;

b确定其中至少一个数组的数据类型;

c根据所确定的数据类型,生成所述结构化数据的元数据。

2.根据权利要求1所述的方法,其中,所述步骤b中多个数据类型探测器被用来确定所述至少一个数组的数据类型。

3.根据权利要求2所述的方法,其中,所述步骤b具体包括:

b1按照所述多个数据类型探测器的排序,逐个将所述数据类型探测器用于探测一个数组的数据类型,直至确定该数组的数据类型;

b2对下一数组执行所述步骤b1,直至确定所有数组的数据类型。

4.根据权利要求3所述的方法,其中,所述步骤b1中的排序包括将所述多个数据类型探测器划分为不同层级,按照所属层级对所述多个数据类型探测器进行排序。

5.根据权利要求4所述的方法,其中,所述步骤b1中的排序还包括:

-对属于同一层级的数据类型探测器按照运行速度进行二次排序。

6.根据权利要求1至5中任一项所述的方法,其中,在步骤a之前,该方法还包括:

-对初始结构化数据进行转化,以使其转化为可被按照预定方式解析的所述结构化数据。

7.根据权利要求1至6中任一项所述的方法,其中,所述元数据包括所述数据类型以及由所述数据类型确定的其他元数据。

8.根据权利要求7所述的方法,其中,所述其他元数据包括以下至少任一项:

-所述结构化数据具有标题数组;

-所述结构化数据所属的应用领域;

-所述结构化数据的至少一个数组中包含与相应数组的数据类型不符的异常元素。

9.根据权利要求8所述的方法,其中,所述其他元数据包括所述结构化数据具有标题数组;

其中,所述结构化数据具有标题数组基于以下至少任一方式来确定:

-所述标题数组中每个元素的数据类型与该元素所对应的一个所述数组的数据类型的差异;

-所述标题数组中各元素是否具有标题相关特征。

10.根据权利要求9所述的方法,其中,所述标题相关特征包括以下至少任一项:

-不为空;

-不为数值;

-长度不超过预定阈值。

11.一种生成结构化数据的元数据的装置,其中,该装置包括:

-用于解析结构化数据,以获得所述结构化数据所对应的一个或多个数组的装置,其中每个数组对应于一个数据类型;

-用于确定其中至少一个数组的数据类型的装置;

-用于根据所确定的数据类型,生成所述结构化数据的元数据的装置。

12.根据权利要求11所述的装置,其中,所述用于确定其中至少一个数组的数据类型的装置通过调用多个数据类型探测器来确定所述至少一个数组的数据类型。

13.根据权利要求12所述的装置,其中,所述确定所述至少一个数组的数据类型的操作具体包括:

-按照所述多个数据类型探测器的排序,逐个将所述数据类型探测器用于探测一个数组的数据类型,直至确定该数组的数据类型,对下一数组重复执行所述前述探测操作,直至确定所有数组的数据类型。

14.根据权利要求13所述的装置,其中,所述排序包括将所述多个数据类型探测器划分为不同层级,按照所属层级对所述多个数据类型探测器进行排序。

15.根据权利要求14所述的装置,其中,所述排序还包括:

-对属于同一层级的数据类型探测器按照运行速度进行二次排序。

16.根据权利要求11至15中任一项所述的装置,其中,该装置还包括:

-用于对初始结构化数据进行转化,以使其转化为可被按照预定方式解析的所述结构化数据的装置。

17.根据权利要求11至16中任一项所述的装置,其中,所述元数据包括所述数据类型以及由所述数据类型确定的其他元数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510202637.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top