[发明专利]一种多源异构数据采集方法有效
申请号: | 202010713819.8 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111737529B | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 张春林;李利军;李春青;常江波;尚雪松 | 申请(专利权)人: | 北京东方通科技股份有限公司;北京东方通软件有限公司;北京微智信业科技有限公司;北京泰策科技有限公司 |
主分类号: | G06F16/90 | 分类号: | G06F16/90;G06F40/253 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 安琪 |
地址: | 100000 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源异构 数据 采集 方法 | ||
1.一种多源异构数据采集方法,其特征在于,包括:
建立关键词表;
获取各数据源的采集内容,并创建对应的采集语法;
根据所述采集语法,建立数据采集规则;
将所述数据采集规则关联到所述关键词表对应的关键词上进行多源异构的数据采集;
根据所述关键词表,在数据采集时,判断同一索引采集路径是否对应有多个关键词,生成路径和关键词的对应模型:
;
其中,所述表示第个索引路径对应的第个关键词;;;
根据所述路径和关键词的对应模型,确定不同关键词直接检索到同一索引采集路径的概率;
将所述概率代入所述路径和关键词的对应模型,得到路径和关键词的概率比模型:
;
其中,所述表示第个索引路径对应的第个关键词接检索到第个索引路径的概率;
分别将每个索引路径代入所述路径和关键词的概率比模型,确定同一索引路径相对于不同关键词的概率比,并选择概率比最小的关键词为唯一关键词,并删除其它关键词。
2.根据权利要求1所述的一种多源异构数据采集方法,其特征在于,所述建立关键词表,包括:
获取所述多源异构数据的数据源,确定数据源关键词;
获取所述多源异构数据中数据内容的类型特征,确定类型特征关键词;
根据所述数据源关键词和类型特征关键词,确定所述数据源关键词和类型特征关键词的邻近词,并将所述邻近词作为补充词;
根据所述数据源关键词、类型特征关键词和补充词,建立三维异构的关键词表。
3.根据权利要求1所述的一种多源异构数据采集方法,其特征在于,所述建立关键词表,还包括:
对所述关键词表中的关键词进行预处理;
根据所述预处理,确定所述关键词的词性;
基于所述词性对所述关键词进行划分,确定划分字符;
基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定划分字符后的关键词的长度;
将所述划分字符后的关键词的长度与预设的理想长度进行比较,确定所述划分字符后的关键词的长度和理想长度的差异度;
基于所述差异度,通过预设的差异度阀值删除差异较大的关键词,并在删除差异较大的关键词后,确定关键词表。
4.根据权利要求3所述的一种多源异构数据采集方法,其特征在于,所述基于关键词预设长度筛选算法对划分字符后的关键词进行计算,确定所述划分字符后的关键词的长度,包括:
步骤1:确定划分字符后的关键词的字符串长度和关键词中每个字在所述划分字符后的关键词中出现的频率,以及关键词的总字符串长度,计算所述划分字符后的关键词的预设长度:
;
步骤2:构建所述划分字符后的关键词在检索时的损失函数:
) ;
其中,所述和为所述划分字符后的关键词的特征向量,所述表示划分字符后的关键词的实际长度特征,所述表示划分字符后的关键词的预设长度特征;表示和的欧氏距离;所述为所述划分字符后的关键词的字符串长度的上限值;当时,表示所述划分字符后的关键词为预设长度的损失值,当时,表示表示所述划分字符后的关键词的字符串长度存在上限值时的损失值;
步骤3:根据所述损失函数和所述预设长度,确定所划分字符后的关键词述关键词的长度:
;
其中,将所述划分字符后的关键词先代入式(2),判断所述划分字符的长度是否超过关键词的上限,当超过上限时,删除所述划分字符后的关键词,当没有超过上限时,将所述字符后的关键词导入所述式(1),确定关键词的长度。
5.根据权利要求1所述的一种多源异构数据采集方法,其特征在于,所述获取各数据源采集内容,并创建对应的采集语法,包括:
基于所述各数据源的采集需求,确定抽象语法树;
通过所述抽象语法树获取所述各数据源采集内容,基于自定义的反射规则,构建采集语法的逻辑执行规则;
基于所述各数据源采集内容的内容序列和内容形式,构建采集语法的语法结构;
根据所述逻辑执行规则和语法结构,确定所述采集语法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京东方通科技股份有限公司;北京东方通软件有限公司;北京微智信业科技有限公司;北京泰策科技有限公司,未经北京东方通科技股份有限公司;北京东方通软件有限公司;北京微智信业科技有限公司;北京泰策科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010713819.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置