[发明专利]一种PowerPoint演示文稿向Word文档转换的方法及系统有效

专利信息
申请号: 201910246944.X 申请日: 2019-03-29
公开(公告)号: CN110222317B 公开(公告)日: 2023-05-26
发明(设计)人: 宋军;徐衡;张坤;朱超群;彭艳;曹威;吴雅笛 申请(专利权)人: 中国地质大学(武汉)
主分类号: G06F40/151 分类号: G06F40/151;G06F18/23213;G06N20/00
代理公司: 武汉知产时代知识产权代理有限公司 42238 代理人: 方琳
地址: 430000 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 powerpoint 演示 文稿 word 文档 转换 方法 系统
【权利要求书】:

1.一种PowerPoint演示文稿向Word文档转换的方法,其特征在于,包括以下步骤

S1、引入Apache POI实现Microsoft Office PowerPoint源文件的数据提取:对源文件进行预处理,获取源文件段落信息,接着进行包含文本、图片、表格、公式的数据提取并保存;

S2、进行源文件数据分析:根据对Microsoft Office PowerPoint源文件提取的内容,将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,预设的Microsoft Office PowerPoint转换Microsoft Office Word文档历史信息作为迁移数据集Tb,将二者合并为训练数据集T;定义用于K-means聚类算法的欧氏距离函数disted和最小化平方误差函数E;执行迁移学习算法,初始化段落的权重向量w,并计算用于数据集T上的权重分布pt;执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类,再计算迁移错误率∈t更新权值向量迭代运行设定多次以获得最终分类器ht,并将文本、图片、表格、公式的分类结果保存;对公式做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的MicrosoftOffice Word文档公式;

S3、引入JACOB实现Microsoft Office Word文档目标文件生成:对保存的文本、图片、表格、公式,将其依次写入目标的Microsoft Office Word文档文件中,完成文档的转换;

步骤S2的源文件数据分析的具体方法包括:

S21、统计文本数据在PowerPoint存储的方式,将每个段落文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,其长度为m,按照相同格式加载预设的PowerPoint转换Word历史信息作为迁移数据集Tb,其长度为n;将二者合并为训练数据集T,其长度为m+n;

S22、定义数据集文本数据段落样本表示为质心表示为其中i=1,2,…,s表示段落索引号,j=1,2,…,t表示特征数,再根据上述符号定义用于K-means算法计算每簇质心和该段落距离的欧氏距离函数:

定义K-means算法拟合簇质心的最小化平方误差函数:

其中是簇Ci的均值向量;

S23、执行迁移算法,初始化段落的权重向量,w表示每个段落文本的初始权重,该权重用于调整迁移数据对源数据的影响作用:

S24、计算用于数据集T上的权重分布pt,用于K-means算法训练数据的权值项,其权重分布pt根据权重向量wt计算得到:

S25、执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类;

S26、根据K-means算法的聚类结果,计算迁移错误率∈t

ht(xi)表示分类器在Ta上分类结果,c(xi)表示聚类算法分类在Ta上分类结果,设置和βtt/(1-∈t)并根据该错误率计算并更新权值向量:

S27、返回步骤S24进行迭代,直到达到设置的迭代次数N为止,以获得分类器最终在Ta上分类结果ht,并将分类结果保存;

S28、对于不同的公式类型,当公式为图片格式时,对PowerPoint演示文稿的公式图片做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Word文档公式。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910246944.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top