[发明专利]一种统计表格有效内容的方法有效
申请号: | 201510141995.8 | 申请日: | 2015-03-27 |
公开(公告)号: | CN104750668A | 公开(公告)日: | 2015-07-01 |
发明(设计)人: | 江潮;贺建华;蒋汉华 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/24 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 刘杰 |
地址: | 430074 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 统计 表格 有效 内容 方法 | ||
技术领域
本发明涉及计算机的数据挖掘应用技术领域,尤其涉及到电子数据表格的内容统计。
背景技术
目前统计电子数据表格文档内容,都是采用excel自带的统计功能,但这样统计出来的数据仅仅是excel文档中所有内容的总和,而这些内容并不全是有效内容,里面充满部分的html代码,url连接地址,标点符号等噪音部分,以及相同列下不同数据之间重复的部分。因此,按照现有统计方式统计出的电子数据表格内容数量远远大于文档中有效的部分,无法适应人们对表格中有效内容的统计需求。例如,当此excel是需要作为翻译的原文件,这些噪音部分是不需要作为翻译的字数统计,而且相同列下不同数据之间重复的部分也不需要在作为翻译的字数统计,那么要完成此项工作,需要人为的去判断和剔除噪音部分和去除同一列数据相同重复的部分,当excel数据越来越多的时候,人工干预成本也会越来越高,效率也会越来越低,出错几率会越来越高,最终统计出的数值准确率也会越来越低。
发明内容
本发明所要解决的技术问题是提供一种统计表格有效内容的方法,克服现有技术存在的无效内容统计的缺陷。
为解决上述技术问题,本发明提供一种统计表格有效内容的方法,包括以下步骤:
步骤Ⅰ、文档预处理,过滤掉文档中的噪音部分;
步骤Ⅱ、通过计算数据的相似度,依据相似度的值对数据进行分类;
步骤Ⅲ、计算每个分类中数据集合的有效部分数;
步骤Ⅳ、将所有分类中的有效部分数累加得出最后有效部分数。
所述过滤掉文档中的噪音部分为,去除每笔数据中跟文档内容不相关的html标签,url连接地址,标点符号,空格。
优选的,所述步骤Ⅱ包括以下步骤:
ⅰ、首先将所有数据加载到集合G中,然后按照文本大小对集合G进行倒序排序,也就是将长度最长的排在第一位,长度最短的排在最后一位。
ⅱ、取出集合G中一笔数据D,将其保存在分类集合L1中,并将该数据D从集合G中删除。
ⅲ、计算数据D依次与集合G中的其他数据GD的相似度,当该相似度数值大于等于预先设置好的文本相似度阀值时,则将GD也存入集合L1中,并且保存D->GD的最小编辑数S1,并在集合G中删除数据GD。
ⅳ、重复步骤ⅱ、ⅲ的方式,形成分类集合L2,…,Ln。
优选的,所述计算数据的相似度,包括如下步骤:
通过编辑距离算法计算出两笔数据之间的最小编辑数,
根据所述编辑次数来计算出两笔数据的相似度。
所述计算每个分类中数据集合的有效部分数,包括以下步骤:
3.1、循环遍历L1集合,以第一笔数据LD1为参照对象,依次取出第二笔数据对象LD2,并取出LD2对象中的最小编辑次数S1,计算出这两笔数据的有效内容数据L1A1,L1A1=S1+(LD2对象文本数据长度);
3.2、根据3.1的方式,依次取出第三笔数据LD3直到LDn,最终得出L1A2…L1A(n-1),最后统计出集合L1有效内容数L1A,
L1A=(L1A1+L1A2+….+L1A1(n-1))-(LD1对象文本数据长度)*(集合L1长度-1);
3.3、重复步骤3.1到3.2的操作,依次计算出分类集合L2,…,Ln分别对应的有效内容数L2A,…,LnA;
3.4、无法匹配集合W中有效内容数WA为该集合中每笔对象文本长度之和的累加。
本发明自动的过滤掉文档中的噪音部分,然后计算两笔数据的相似度,依据相似度的值对数据进行分类,然后依次统计每个分类中数据集合的有效部分,最终在将所有分类中的数据汇总累加得出最后的总体有效部分数据。本发明自动避免掉重复内容的重复计算,对有效部分的统计准确率高;同时无需人工处理,统计效率高。值得推广应用。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为本发明具体实施方式的流程图。
具体实施方式
结合图1所示,本发明主要包括如下步骤:
步骤1、文档预处理,清除文档中相关内容噪音部分内容。
为了提高模块效率和统计准确性,在模块执行之前,首先要对文档中相关内容进行过滤。去除每笔数据中跟文档内容不相关的html标签,url连接地址,标点符号,空格等等噪音内容。这些内容严格意义上说并不属于文档中的有效内容,因此在统计的时候并不需要将这些内容统计在最后的结果中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司;,未经语联网(武汉)信息技术有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510141995.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语义检索方法及系统
- 下一篇:图表显示控制装置、电子设备和图表显示方法
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法