[发明专利]一种ppt文档的对比方法有效
申请号: | 202011586576.2 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112529111B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 孙永毫;徐强 | 申请(专利权)人: | 广东国粒教育技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/583;G06F40/289;G06V10/74 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 卢泽明 |
地址: | 519000 广东省珠海市高新区唐家湾镇金唐*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 ppt 文档 对比 方法 | ||
1.一种ppt文档的对比方法,其特征在于,包括:
S1、获取新旧PPT文件;
S2、对所述S1中获取的新旧PPT文件进行对比处理,获取新旧ppt文本文字或图片内容的相似度,生成对比结果文件;所述S2包括:
文件转换、获取文件的MD5值;获取新旧ppt文件中幻灯片存在差异的页码;比较文字;比较图像;计算文本文字的相似度S;形成对比结果文件;
所述比较文字具体为:
通过e-iceblue软件工具包,加载ppt文件,同时根据不相同的页码集合获取页码对应的ppt幻灯片;
通过e-iceblue软件包中的Shape方式获取不相同页码的幻灯片下的段落文字,并去除空行;
通过diff_main算法,找到两个文本之间的差异,并将差异值记录存放在集合当中;
在差异页的页码当中创建幻灯片,并添加说明差异的内容;
所述比较图像具体为:
通过e-iceblue软件工具包,加载ppt文件,同时根据不相同的页码集合获取页码对应的ppt幻灯片;
通过e-iceblue软件包中的SlidePicture和BufferedImage对象,获取不相同页码中的幻灯片下的图像;
通过均值哈希算法,实现比较图像指纹的方式,对比两张图片是否相同,记录相同图片的数目;
通过数目计算ppt文件图片的引用率,引用率=相同图片的数目/新ppt的图片总数;
所述获取新旧ppt文件中幻灯片存在差异的页码具体为:
利用POI和java中的AWT软件包,通过创建BufferedImage对象,将幻灯片转换成图片,图象的尺寸为原来PPT的每页的尺寸;
通过MD5算法,获取每张图片MD5值,通过MD5值来判断两张图片是否相同;
将图片完全不同的页码记录存储到页码集合当中。
2.根据权利要求1所述的ppt文档的对比方法,其特征在于,所述文件转换具体为:集成libreoffice工具使文件转换成.pptx文件格式。
3.根据权利要求2所述的ppt文档的对比方法,其特征在于,所述获取文件的MD5值具体为:通过‘MD5’算法获取文件的‘MD5’值,通过‘MD5’值是否相等来判断两个文件是否相同。
4.根据权利要求1所述的ppt文档的对比方法,其特征在于,所述计算文本文字的相似度S具体为:
通过Segment方法,对段落文本进行分词处理,并确定所述新PPT文件的特征词;
文本相似度计算判定,通过余弦相似度计算,即计算两个向量的夹角余弦值来评估他们的相似度:
已知向量a=(x1,y1),向量b=(x2,y2),
其中a·b=x1x2+y1y2,
5.根据权利要求4所述的ppt文档的对比方法,其特征在于,所述形成对比结果文件具体为:
在ppt末尾生成一张幻灯片,用于标注插入文字总相似度和图像比较的结果;
通过poi方式去除结果文件中产生的水印标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东国粒教育技术有限公司,未经广东国粒教育技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011586576.2/1.html,转载请声明来源钻瓜专利网。