[发明专利]Word文档的转换方法及系统在审
申请号: | 201611252467.0 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106802937A | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 诸葛峰;谢志雄;李济君 | 申请(专利权)人: | 江苏中育优教科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙)11369 | 代理人: | 韩飞 |
地址: | 214100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | word 文档 转换 方法 系统 | ||
技术领域
本发明涉及Word文档转换技术领域,更具体地说,本发明涉及一种Word文档的转换方法及系统。
背景技术
Word文档是目前最为流行的电子文档工具。现有技术通常涉及结构化文档型数据(如xml、json等)转为Word文档或基于Word文档的信息提取技术。
但是,Word本身是二进制文件,计算机无法直接使用文本检索的方式对其数据进行访问。目前的Word文档信息提取技术,用于解决该问题,也仅仅只针对标的内容进行检索和提取,无法实现对Word文档原有自然语言组织结构的内容以及基于结构化文档型数据的完全重现。
发明内容
针对上述技术中存在的不足之处,本发明提供一种Word文档的转换方法及系统,通过对Word文档Html化、预定义结构搜索匹配以及人工辅助修正的方法,将Word文档中以自然语言组织的内容转为以计算机语言组织的结构化文档型数据存储,供内容数据的便利存储、查询以及分析。
为了实现根据本发明的这些目的和其它优点,本发明通过以下技术方案实现:
本发明提供一种WORD文档的转换方法,其包括以下步骤:
Word文档Html化:对Word文档的全文进行Html标签语言文本化,输出Html标签语言文本;
预定义结构搜索匹配:设置具有正则表达式的预定义结构,通过所述预定义结构对Html标签语言文本执行搜索匹配,输出初步结构化文档型数据;
人工辅助修正:用户根据预定义结构搜索匹配后提示的错误信息,对所述初步结构化文档型数据中结构的各层级以及内容分别进行人工修正,输出完整的结构化文档型数据。
优选的是,Word文档Html化,包括以下步骤:
通过Office自动化工程,将所述Word文档中的所有文本转化为Html标签语言文本;
将所述Word文档中的所有非文本资源转化为Base64编码的文本字符;
将所述Html标签语言文本和所述Base64编码的文本字符存入Html中。
优选的是,所述非文本资源包括所述Word文档中内嵌图片和对象。
优选的是,所述预定义结构的结构之间设有嵌套关系,所述搜索匹配包括递归搜索匹配。
优选的是,所述人工修正的操作包括:对所述初步结构化文档型数据中结构的各层级进行增加、删除以及移位;对所述初步结构化文档型数据中结构的内容进行增加、删除以及修改。
优选的是,所述人工修正的操作还包括:
预定义结构的更新:对所述初步结构化文档型数据中结构的内容进行增加、删除以及修改后,对结构的各层级添加自定义信息。
优选的是,所述完整的结构化文档型数据包括结构化文档型数据Xml和Json。
一种Word文档转换系统,其包括:
本地程序端,其用于接收所述浏览器端请求,选择Word文档并对Word文档的全文进行Html标签语言文本化,输出Html标签语言文本;
浏览器端,其用于响应所述本地程序端的Ajax请求,设置预定义结构及其更新、执行搜索匹配以及实施人工辅助修正,输出完整的结构化文档型数据;以及,
服务器端,其用于接收浏览器端输出的完整的结构化文档型数据并存储。
本发明至少包括以下有益效果:
1)本发明提供的Word文档的转换方法,通过对Word文档Html化、预定义结构搜索匹配以及人工辅助修正的方法,将Word文档中以自然语言组织的内容转为以计算机语言组织的结构化文档型数据存储,供内容数据的便利存储、查询以及分析;
2)预定义结构的结构之间设有嵌套关系,则搜索匹配包括递归搜索匹配,促使输出的结构化文档型数据完整、结构化文档型数据之间存在相互关联,对Word文档原有自然语言组织结构的内容实现基于结构化文档型数据的完全重现;
3)对初步结构化文档型数据中结构的各层级和内容分别进行人工修正、预定义结构的更新,分别用于提高输出完整的结构化文档型数据的精确性。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明所述的Word文档的转换方法的流程图;
图2为本发明所述的Word文档Html化的方法流程图;
图3为本发明所述的Word文档的转换系统的示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏中育优教科技发展有限公司,未经江苏中育优教科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611252467.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于项集熵的数据挖掘方法
- 下一篇:基于组件化的客户分层属性动态生成方法