[发明专利]一种用于大数据清洗的快速数据聚合方法有效

申请号：	201910501539.8	申请日：	2019-06-11
公开（公告）号：	CN110196974B	公开（公告）日：	2023-07-07
发明（设计）人：	周柚;王康平;时小虎;吴春国;耿昭阳;王依章	申请（专利权）人：	吉林大学
主分类号：	G06F40/18	分类号：	G06F40/18;G06F40/289;G06F16/35
代理公司：	吉林省长春市新时代专利商标代理有限公司 22204	代理人：	仲伟清
地址：	130000 吉林***	国省代码：	吉林;22
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种用于大数据清洗的快速数据聚合方法，包括以下步骤：数据读取：原有的数据是在Excel中存储的，利用文件流的形式读取出Excel中的数据信息，根据数据的格式，将读取出来的数据信息存储在记录列表中，最后返回一个记录列表；对大数据文本进行切分；进行文本相似度比较；聚合结果的显示和修改：将要显示的表单打印出来并且提供给用户修改和删除，修改完成后，进行表单的下载。
搜索关键词：	一种用于数据清洗快速聚合方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于大数据清洗的快速数据聚合方法，其特征在于，包括以下步骤：S1：数据读取：原有的数据是在Excel中存储的，利用文件流的形式读取出Excel中的数据信息，根据数据的格式，将读取出来的数据信息存储在记录列表中，最后返回一个记录列表，所述记录列表为自定义类，主要包含字符型的物料编号，字符型的物料名称，字符型的分类词；S2：对大数据文本进行切分：对字符型的物料名称进行切分并统计词频，统计文本频率，并通过公式A*Math.log(total/B)/Math.log(2.0)计算出词语的tfidf值，选择tf‑idf值最大的词语作为该记录的分类词；将全部带有分类词标识的记录存储在一个表单当中；S3：进行文本相似度比较：根据分类词标识将其分组进行并行计算，在计算单元内，将同组的记录两两进行字符串的文本相似度比较，如果文本相似度在设定的阈值之上，则将其存储在要显示的表单当中；S4：聚合结果的显示和修改：将要显示的表单打印出来并且提供给用户修改和删除，修改完成后，进行表单的下载。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于吉林大学，未经吉林大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910501539.8/，转载请声明来源钻瓜专利网。

上一篇：一种备注显示方法及设备
下一篇：问题生成方法、装置、设备、计算机设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于大数据清洗的快速数据聚合方法有效

专利文献下载