[发明专利]基于分词和语义依存分析的异构数据源海量数据梳理方法在审
申请号: | 201910802454.3 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110515926A | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 马世乾;闫卫国;王刚;尚学军;王伟臣;李国栋;郭悦;王旭东;杨晓静;黄志刚;崇志强;王天昊 | 申请(专利权)人: | 国网天津市电力公司;国网天津市电力公司电力科学研究院 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/25;G06F17/27 |
代理公司: | 12209 天津盛理知识产权代理有限公司 | 代理人: | 王利文<国际申请>=<国际公布>=<进入 |
地址: | 300010*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于分词和语义依存分析的异构数据源海量数据梳理方法,其技术特点是:抽取异构数据源数据;采用通用数据表示格式对已抽取数据进行格式化;对异构数据源数据进行数据结构梳理;采用分词与语义依存分析的自然语言处理技术对数据进行解析清洗;输出异构数据源数据梳理结果集。本发明采用跨多类异构数据源整合各类系统数据,进行数据结构统一处理,通过分词与语义依存分析技术将多源端系统下重复数据记录进行合并,创建各系统数据间的关联关系并将各专业不同系统间数据进行融合,筛选各类型数据重复属性进行合并,自动分析数据有效性对排序结果进行数据清洗,同时,可以大幅节约人力成本,提高工作效率。 | ||
搜索关键词: | 异构数据源 语义 分词 数据结构 系统数据 梳理 自然语言处理技术 格式化 数据有效性 系统间数据 表示格式 抽取数据 工作效率 关联关系 海量数据 技术特点 排序结果 人力成本 数据清洗 数据重复 通用数据 统一处理 重复数据 自动分析 分析 合并 端系统 结果集 多源 整合 解析 抽取 清洗 筛选 输出 融合 节约 创建 记录 | ||
【主权项】:
1.一种基于分词和语义依存分析的异构数据源海量数据梳理方法,其特征在于:包括以下步骤:/n步骤1、抽取异构数据源数据;/n步骤2、采用通用数据表示格式对已抽取数据进行格式化;/n步骤3、对异构数据源数据进行数据结构梳理;/n步骤4、采用分词与语义依存分析的自然语言处理技术对数据进行解析清洗;/n步骤5、输出异构数据源数据梳理结果集。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网天津市电力公司;国网天津市电力公司电力科学研究院,未经国网天津市电力公司;国网天津市电力公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910802454.3/,转载请声明来源钻瓜专利网。