[发明专利]一种PowerPoint演示文稿向Word文档转换的方法及系统有效
申请号: | 201910246944.X | 申请日: | 2019-03-29 |
公开(公告)号: | CN110222317B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 宋军;徐衡;张坤;朱超群;彭艳;曹威;吴雅笛 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F18/23213;G06N20/00 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 方琳 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 powerpoint 演示 文稿 word 文档 转换 方法 系统 | ||
1.一种PowerPoint演示文稿向Word文档转换的方法,其特征在于,包括以下步骤
S1、引入Apache POI实现Microsoft Office PowerPoint源文件的数据提取:对源文件进行预处理,获取源文件段落信息,接着进行包含文本、图片、表格、公式的数据提取并保存;
S2、进行源文件数据分析:根据对Microsoft Office PowerPoint源文件提取的内容,将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,预设的Microsoft Office PowerPoint转换Microsoft Office Word文档历史信息作为迁移数据集Tb,将二者合并为训练数据集T;定义用于K-means聚类算法的欧氏距离函数disted和最小化平方误差函数E;执行迁移学习算法,初始化段落的权重向量w,并计算用于数据集T上的权重分布pt;执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类,再计算迁移错误率∈t更新权值向量迭代运行设定多次以获得最终分类器ht,并将文本、图片、表格、公式的分类结果保存;对公式做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的MicrosoftOffice Word文档公式;
S3、引入JACOB实现Microsoft Office Word文档目标文件生成:对保存的文本、图片、表格、公式,将其依次写入目标的Microsoft Office Word文档文件中,完成文档的转换;
步骤S2的源文件数据分析的具体方法包括:
S21、统计文本数据在PowerPoint存储的方式,将每个段落文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,其长度为m,按照相同格式加载预设的PowerPoint转换Word历史信息作为迁移数据集Tb,其长度为n;将二者合并为训练数据集T,其长度为m+n;
S22、定义数据集文本数据段落样本表示为质心表示为其中i=1,2,…,s表示段落索引号,j=1,2,…,t表示特征数,再根据上述符号定义用于K-means算法计算每簇质心和该段落距离的欧氏距离函数:
定义K-means算法拟合簇质心的最小化平方误差函数:
其中是簇Ci的均值向量;
S23、执行迁移算法,初始化段落的权重向量,w表示每个段落文本的初始权重,该权重用于调整迁移数据对源数据的影响作用:
S24、计算用于数据集T上的权重分布pt,用于K-means算法训练数据的权值项,其权重分布pt根据权重向量wt计算得到:
S25、执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类;
S26、根据K-means算法的聚类结果,计算迁移错误率∈t:
ht(xi)表示分类器在Ta上分类结果,c(xi)表示聚类算法分类在Ta上分类结果,设置和βt=t/(1-∈t)并根据该错误率计算并更新权值向量:
S27、返回步骤S24进行迭代,直到达到设置的迭代次数N为止,以获得分类器最终在Ta上分类结果ht,并将分类结果保存;
S28、对于不同的公式类型,当公式为图片格式时,对PowerPoint演示文稿的公式图片做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Word文档公式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910246944.X/1.html,转载请声明来源钻瓜专利网。