[发明专利]基于分词和语义依存分析的异构数据源海量数据梳理方法在审

专利信息
申请号: 201910802454.3 申请日: 2019-08-28
公开(公告)号: CN110515926A 公开(公告)日: 2019-11-29
发明(设计)人: 马世乾;闫卫国;王刚;尚学军;王伟臣;李国栋;郭悦;王旭东;杨晓静;黄志刚;崇志强;王天昊 申请(专利权)人: 国网天津市电力公司;国网天津市电力公司电力科学研究院
主分类号: G06F16/21 分类号: G06F16/21;G06F16/25;G06F17/27
代理公司: 12209 天津盛理知识产权代理有限公司 代理人: 王利文<国际申请>=<国际公布>=<进入
地址: 300010*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 异构数据源 语义 分词 数据结构 系统数据 梳理 自然语言处理技术 格式化 数据有效性 系统间数据 表示格式 抽取数据 工作效率 关联关系 海量数据 技术特点 排序结果 人力成本 数据清洗 数据重复 通用数据 统一处理 重复数据 自动分析 分析 合并 端系统 结果集 多源 整合 解析 抽取 清洗 筛选 输出 融合 节约 创建 记录
【权利要求书】:

1.一种基于分词和语义依存分析的异构数据源海量数据梳理方法,其特征在于:包括以下步骤:

步骤1、抽取异构数据源数据;

步骤2、采用通用数据表示格式对已抽取数据进行格式化;

步骤3、对异构数据源数据进行数据结构梳理;

步骤4、采用分词与语义依存分析的自然语言处理技术对数据进行解析清洗;

步骤5、输出异构数据源数据梳理结果集。

2.根据权利要求1所述的基于分词和语义依存分析的异构数据源海量数据梳理方法,其特征在于:所述异构数据源包括关系型数据库、非关系型数据库及存储于文档类文件中的数据。

3.根据权利要求1或2所述的基于分词和语义依存分析的异构数据源海量数据梳理方法,其特征在于:所述步骤1的具体实现方法包括以下步骤:

⑴采用可配置工具通过ODBC或JDBC的连接方式调用不同驱动程序动态反射连接数据库实例,抽取不同种类数据库实例数据;

⑵采用可配置工具动态识别文件类型,通过不同驱动程序连接读取文档、文本文档和表格文件,抽取不同文件中的数据。

4.根据权利要求1所述的基于分词和语义依存分析的异构数据源海量数据梳理方法,其特征在于:所述步骤2的具体实现方法包括以下步骤:

⑴采用通用数据表示格式xml对抽取数据进行格式化,将异构数据源数据对象转换成为统一的满足通用数据表示格式要求的全局数据对象;

⑵通过识别“ID”、“标识”、“名称”关键字,自动标记对应属性为全局唯一标识属性。

5.根据权利要求1所述的基于分词和语义依存分析的异构数据源海量数据梳理方法,其特征在于:所述步骤3的具体实现方法包括以下步骤:

⑴建立全局数据对象的属性全集,其所含属性为各异构数据源中该全局数据对象所拥有的属性全集;

⑵使用分词与语义依存分析对全局数据对象的属性进行解析处理,如异构数据源下全局数据对象的属性存在重复,则该全局数据对象的属性全集仅保留重复属性中的一例;

⑶采用属性全集作为该类全局数据对象的最终属性集并生成对应数据结构;

⑷采用全局数据对象唯一标识作为记录生成判断标准,进行异构数据源记录整合。

6.根据权利要求1所述的基于分词和语义依存分析的异构数据源海量数据梳理方法,其特征在于:所述步骤4的具体实现方法包括以下步骤:

⑴根据全局数据对象中的唯一标识标记进行记录整合并创建结果集,每条记录保有全局唯一标识属性,不同数据源下全局唯一标识属性如存在重复则结果集只保留一条;

⑵针对异构数据源重复属性进行数据采用优先级排序,排序依据为数据完整性;

⑶参照数据采用优先级,进行全局数据对象数据梳理,根据属性全集进行每条记录的数据重录,每一属性的实际数据按照优先级递减顺序,优先采用优先级高的数据源中全局数据对象的对应属性。

7.根据权利要求1所述的基于分词和语义依存分析的异构数据源海量数据梳理方法,其特征在于:所述步骤5的具体实现方法包括以下步骤:

⑴结构化输出全局数据对象属性全集,形成标准且完整的数据结构;

⑵根据业务具体需要进行输出配置,进行存储格式转换、行列转换,输出全局数据对象属性梳理后的结果集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网天津市电力公司;国网天津市电力公司电力科学研究院,未经国网天津市电力公司;国网天津市电力公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910802454.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top