[发明专利]表格合并方法、处理芯片以及电子设备在审
申请号: | 202111180761.6 | 申请日: | 2021-10-11 |
公开(公告)号: | CN114254599A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 张蕾;杨文志;梁龙飞;江伟杰 | 申请(专利权)人: | 上海新氦类脑智能科技有限公司 |
主分类号: | G06F40/174 | 分类号: | G06F40/174 |
代理公司: | 上海上谷知识产权代理有限公司 31342 | 代理人: | 蔡继清 |
地址: | 200090 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 合并 方法 处理 芯片 以及 电子设备 | ||
1.一种表格合并方法,其特征在于,包括:
对于待合并的多个表格,识别各所述表格的各数据列的类型;
基于所述多个表格生成需要合并的多个表格对,并计算每个所述表格对中包含的两个所述表格之间相同类型的数据列之间的相似度;
基于各所述表格对中的两个所述表格之间相同类型的数据列之间的相似度,对各所述表格对中的两个所述表格之间相同类型的数据列进行合并。
2.根据权利要求1所述的表格合并方法,其特征在于,计算每个所述表格对中包含的两个所述表格之间相同类型的数据列之间的相似度,包括:
对于各所述表格对中的每个表格,分别对所述表格中各文本类型的文本数据列进行分词得到多个词汇,并统计各所述文本数据列中的每个词汇的频次;
基于各所述表格对包含的两个所述表格的所述文本数据列中词汇的频次,得到各所述表格对中的两个所述表格之间的所述文本数据列之间的相似度。
3.根据权利要求1所述的表格合并方法,其特征在于,计算每个所述表格对中包含的两个所述表格之间相同类型的数据列之间的相似度,包括:
对于各所述表格对中的每个表格,分别对所述表格中的各所述数字数据列中进行标准化处理,并获取各所述数字数据列的概率分布;
基于各所述表格对包含的两个所述表格中所述数字数据列的概率分布,得到各所述表格对中的两个所述表格之间的所述数字数据列之间的相似度。
4.根据权利要求1所述的表格合并方法,其特征在于,计算每个所述表格对中包含的两个所述表格之间相同类型的数据列之间的相似度,包括:
对于每个所述表格对,若所述表格对中的两个所述表格中均存在多个日期类型的日期数据列,将所述表格对中的各所述表格中的多个所述日期数据列进行组合得到至少一个日期数据列对,并计算所述表格对中的各所述表格的各所述日期数据列对中的两个所述日期数据列之间的分布参数值;
基于各所述表格对的两个所述表格中的所述日期数据列对的分布参数值,得到各所述表格对中的两个所述表格之间的所述日期数据列对之间的相似度。
5.根据权利要求1所述的表格合并方法,其特征在于,基于所述多个表格生成需要合并的多个表格对,包括:
从所述多个表格中选取一个所述表格作为基准表格;
将所述多个表格中除所述基准表格以外的各所述表格分别与所述基准表格组合作为需要合并的所述表格对。
6.根据权利要求1所述的表格合并方法,其特征在于,基于各所述表格对中的两个所述表格之间相同类型的数据列之间的相似度,对各所述表格对中的两个所述表格之间相同类型的数据列进行合并,包括:
对于由分别来源于每个所述表格对的所述两个所述表格中的两个第一类型的数据列组成的数据列对,从相似度大于预设的相似度阈值的第一类型的所述数据列对中按照相似度从大到小选取至少一个所述数据列对作为匹配列对,其中所述第一类型为文本类型或日期类型;
将各所述匹配列对中包含的分别来源于同一个所述表格对的两个所述表格的两个所述第一类型的数据列进行合并。
7.根据权利要求1所述的表格合并方法,其特征在于,基于各所述表格对中的两个所述表格之间相同类型的数据列之间的相似度,对各所述表格对中的两个所述表格之间相同类型的数据列进行合并,包括:
对于由分别来源于每个所述表格对的所述两个所述表格中的两个第二类型的数据列组成的数据列对,以选取的数据列对的相似度之和最大为优化目标从相似度大于预设的相似度阈值的第二类型的所述数据列对中选取至少一个数据列对,并将选取的各数据列对作为匹配列对,其中所述第二类型为数字类型;
将各所述匹配列对中包含的分别来源于同一个所述表格对的两个所述表格的两个所述第二类型的数据列进行合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海新氦类脑智能科技有限公司,未经上海新氦类脑智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111180761.6/1.html,转载请声明来源钻瓜专利网。