[发明专利]基于分词和语义依存分析的异构数据源海量数据梳理方法在审

申请号：	201910802454.3	申请日：	2019-08-28
公开（公告）号：	CN110515926A	公开（公告）日：	2019-11-29
发明（设计）人：	马世乾;闫卫国;王刚;尚学军;王伟臣;李国栋;郭悦;王旭东;杨晓静;黄志刚;崇志强;王天昊	申请（专利权）人：	国网天津市电力公司;国网天津市电力公司电力科学研究院
主分类号：	G06F16/21	分类号：	G06F16/21;G06F16/25;G06F17/27
代理公司：	12209 天津盛理知识产权代理有限公司	代理人：	王利文<国际申请>=<国际公布>=<进入
地址：	300010***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于分词和语义依存分析的异构数据源海量数据梳理方法，其技术特点是：抽取异构数据源数据；采用通用数据表示格式对已抽取数据进行格式化；对异构数据源数据进行数据结构梳理；采用分词与语义依存分析的自然语言处理技术对数据进行解析清洗；输出异构数据源数据梳理结果集。本发明采用跨多类异构数据源整合各类系统数据，进行数据结构统一处理，通过分词与语义依存分析技术将多源端系统下重复数据记录进行合并，创建各系统数据间的关联关系并将各专业不同系统间数据进行融合，筛选各类型数据重复属性进行合并，自动分析数据有效性对排序结果进行数据清洗，同时，可以大幅节约人力成本,提高工作效率。
搜索关键词：	异构数据源语义分词数据结构系统数据梳理自然语言处理技术格式化数据有效性系统间数据表示格式抽取数据工作效率关联关系海量数据技术特点排序结果人力成本数据清洗数据重复通用数据统一处理重复数据自动分析分析合并端系统结果集多源整合解析抽取清洗筛选输出融合节约创建记录
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于分词和语义依存分析的异构数据源海量数据梳理方法，其特征在于：包括以下步骤：/n步骤1、抽取异构数据源数据；/n步骤2、采用通用数据表示格式对已抽取数据进行格式化；/n步骤3、对异构数据源数据进行数据结构梳理；/n步骤4、采用分词与语义依存分析的自然语言处理技术对数据进行解析清洗；/n步骤5、输出异构数据源数据梳理结果集。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国网天津市电力公司;国网天津市电力公司电力科学研究院，未经国网天津市电力公司;国网天津市电力公司电力科学研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910802454.3/，转载请声明来源钻瓜专利网。

上一篇：基于跨引擎数据库实现数据全生命周期在线管理的方法
下一篇：数据处理方法及其系统、电子设备和介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于分词和语义依存分析的异构数据源海量数据梳理方法在审

专利文献下载