[发明专利]一种Beamer演示文稿向PowerPoint演示文稿转换的方法及系统有效
申请号: | 201910152903.4 | 申请日: | 2019-02-28 |
公开(公告)号: | CN109918351B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 宋军;徐衡;曹威;张坤;朱超群;彭艳 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F16/178 | 分类号: | G06F16/178 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 孙妮 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 beamer 演示 文稿 powerpoint 转换 方法 系统 | ||
1.一种Beamer演示文稿向PowerPoint演示文稿转换的方法,其特征在于,包括:
S1、源文件信息提取:获取用户提供的Beamer演示文稿根据Beamer文稿中各目标元素的标签,分别提取各种标签所对应的数据信息;所述目标元素包括:文字、图片、公式、表格的内容信息以及格式信息;
S2、源文件数据分析:根据步骤S1中所记录的数据信息,及数据存储的方式,结合深度学习算法,对文档中数据内容和格式进行分析,将不同格式的内容加以区分;并对文字、图片、表格、公式进行转换处理以生成符合PowerPoint的目标元素;
S3、目标文件的生成:将Beamer文稿中元素的数据根据不同格式存储到不同的变量中,根据源文档中目标元素的个数、长度以及位置信息,将分析并转换完成的原始演示文稿信息依次写入生成的空白Microsoft Office PowerPoint演示文稿中;
S2所述深度学习算法为堆叠式去噪自动编码器。
2.如权利要求1所述的一种Beamer演示文稿向PowerPoint演示文稿转换的方法,其特征在于,源文件信息提取具体包括:
S11、根据用户提供的原始Beamer文档元素信息,在java程序中构造一个BufferedReader函数,调用getSlides方法读取该Beamer演示文稿中目标元素信息的数据流;
S12、进行演示文稿的预处理,Beamer文稿中不同的标签代表着不同属性的目标元素,通过构造的hslf模块中的内部方法得到每个幻灯片上的文字、图片、公式、表格的数据信息;
S13、对文字数据进行提取,获取文档段落数据、字体大小及格式信息;
S14、对数据流中带有\begin{tabular}{|1|c|r|}与\end{tabular}标签的数据进行表格信息的提取;
S15、对数据流中带有标签\includegraphics[]{}的数据进行图片的提取;
S16、对数据流中带有\begin{displaymath}与\end{displaymath}、\begin{equation}与\end{equation}以及$$标签的数据进行公式的提取。
3.如权利要求1所述的一种Beamer演示文稿向PowerPoint演示文稿转换的方法,其特征在于,源文件数据分析具体包括:
S21、将源演示文稿数据记录到程序中定义的相关变量中,结合参数分析数据内容、类型及格式信息;
S22、步骤S21中所记录的信息,以及数据在Beamer中存储的方式,使用深度学习的算法进行,对源数据进行多维度、多属性的分析,并对不同属性的元素进行分类,根据元素的不同分别选取最为近似或者匹配度最高的元素转换策略,形成展示效果最佳的文字、图片、表格元素信息流;
S23、基于步骤S22得到的文字,将每段的包括字号、行数以及水平布局位置作为K-means聚类算法的输入矩阵,将字号的类别数作为分类的依据,通过定义一个欧氏距离函数和平均质心距离函数,将源Beamer演示文稿中相似的文本内容划归到同一类别中,区分出不同的字号表示的是包括一级标题、二级标题、正文和公式;
S24、提取源演示文稿中的公式,做缩放、去噪和二值化处理,再通过OCR和语义转换公式,得到格式化的Microsoft Office PowerPoint演示文稿的公式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910152903.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:家电设备及家电间数据共享的方法、装置
- 下一篇:存储器系统和存储数据的方法