[发明专利]一种PowerPoint演示文稿向Word文档转换的方法及系统有效
申请号: | 201910246944.X | 申请日: | 2019-03-29 |
公开(公告)号: | CN110222317B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 宋军;徐衡;张坤;朱超群;彭艳;曹威;吴雅笛 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F18/23213;G06N20/00 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 方琳 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种PowerPoint演示文稿向Word文档转换的方法及系统,包括以下三个步骤:原始演示文稿内容提取。根据用户提供的原始演示文稿,获取所有的幻灯片,再得到每个幻灯片上的文本段落的数据信息;演示文稿内容分析。根据变量中所记录的信息,以及数据存储的方式,使用最新颖的迁移学习技术对文本数据和属性进行分析,将不同的属性内容加以区分;并对复杂格式的数据进行转换处理;目标演示文稿生成。定义一个待转换格式的空白Word文档,根据区分的位置信息,将分析并转换完成的原始演示文稿信息依次写入Microsoft Office Word目标文档中。 | ||
搜索关键词: | 一种 powerpoint 演示 文稿 word 文档 转换 方法 系统 | ||
【主权项】:
1.一种PowerPoint演示文稿向Word文档转换的方法,其特征在于,包括以下步骤S1、引入Apache POI实现Microsoft Office PowerPoint源文件的数据提取:对源文件进行预处理,获取源文件段落信息,接着进行包含文本、图片、表格、公式的数据提取并保存;S2、进行源文件数据分析:根据对Microsoft Office PowerPoint源文件提取的内容,将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,预设的Microsoft Office PowerPoint转换Microsoft Office Word文档历史信息作为迁移数据集Tb,将二者合并为训练数据集T;定义用于K‑means聚类算法的欧氏距离函数disted和最小化平方误差函数E;执行迁移学习算法,初始化段落的权重向量w,并计算用于数据集T上的权重分布pt;执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类,再计算迁移错误率∈t更新权值向量
迭代运行设定多次以获得最终分类器ht,并将文本、图片、表格、公式的分类结果保存;对公式做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Microsoft Office Word文档公式;S3、引入JACOB实现Microsoft Office Word文档目标文件生成:对保存的文本、图片、表格、公式,将其依次写入目标的Microsoft Office Word文档文件中,完成文档的转换。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910246944.X/,转载请声明来源钻瓜专利网。