[发明专利]一种PowerPoint演示文稿向Word文档转换的方法及系统有效

专利信息
申请号: 201910246944.X 申请日: 2019-03-29
公开(公告)号: CN110222317B 公开(公告)日: 2023-05-26
发明(设计)人: 宋军;徐衡;张坤;朱超群;彭艳;曹威;吴雅笛 申请(专利权)人: 中国地质大学(武汉)
主分类号: G06F40/151 分类号: G06F40/151;G06F18/23213;G06N20/00
代理公司: 武汉知产时代知识产权代理有限公司 42238 代理人: 方琳
地址: 430000 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种PowerPoint演示文稿向Word文档转换的方法及系统,包括以下三个步骤:原始演示文稿内容提取。根据用户提供的原始演示文稿,获取所有的幻灯片,再得到每个幻灯片上的文本段落的数据信息;演示文稿内容分析。根据变量中所记录的信息,以及数据存储的方式,使用最新颖的迁移学习技术对文本数据和属性进行分析,将不同的属性内容加以区分;并对复杂格式的数据进行转换处理;目标演示文稿生成。定义一个待转换格式的空白Word文档,根据区分的位置信息,将分析并转换完成的原始演示文稿信息依次写入Microsoft Office Word目标文档中。
搜索关键词: 一种 powerpoint 演示 文稿 word 文档 转换 方法 系统
【主权项】:
1.一种PowerPoint演示文稿向Word文档转换的方法,其特征在于,包括以下步骤S1、引入Apache POI实现Microsoft Office PowerPoint源文件的数据提取:对源文件进行预处理,获取源文件段落信息,接着进行包含文本、图片、表格、公式的数据提取并保存;S2、进行源文件数据分析:根据对Microsoft Office PowerPoint源文件提取的内容,将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,预设的Microsoft Office PowerPoint转换Microsoft Office Word文档历史信息作为迁移数据集Tb,将二者合并为训练数据集T;定义用于K‑means聚类算法的欧氏距离函数disted和最小化平方误差函数E;执行迁移学习算法,初始化段落的权重向量w,并计算用于数据集T上的权重分布pt;执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类,再计算迁移错误率∈t更新权值向量迭代运行设定多次以获得最终分类器ht,并将文本、图片、表格、公式的分类结果保存;对公式做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Microsoft Office Word文档公式;S3、引入JACOB实现Microsoft Office Word文档目标文件生成:对保存的文本、图片、表格、公式,将其依次写入目标的Microsoft Office Word文档文件中,完成文档的转换。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910246944.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top