[发明专利]docx文件信息解析方法及系统无效
申请号: | 201110190027.8 | 申请日: | 2011-07-07 |
公开(公告)号: | CN102214244A | 公开(公告)日: | 2011-10-12 |
发明(设计)人: | 董涛 | 申请(专利权)人: | 深圳市万兴软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 郭伟刚 |
地址: | 518057 广东省深圳市南山区科技南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | docx 文件 信息 解析 方法 系统 | ||
技术领域
本发明涉及文件解析领域,更具体地说,涉及一种docx文件解析方法及系统。
背景技术
docx文件格式是Microsoft Office Word的新一代文档标准,是Microsoft Office Word2007、2010文档的标准格式,是一种基于XML压缩文件的开放文件格式。伴随着办公自动化的普及,人们越来越需要快速的提取出docx文件的信息。
而现在业界经常使用的解析docx文件信息的方法如下所示:
1)、通过调用MS-Word的自动化Com接口解析docx文件信息;
2)、通过调用MS-Word的自动化Com接口将docx文件转换为word XML2003格式后进行解析。
但是采用上述第一种方法时,由于MS-Word的自动化Com接口不稳定,在运行时容易出问题;同时调用Com接口解析时,会将有些元素(如表格、多边形等)解析成图片,失去了原有的真实信息,导致在转换为其他格式的文件时无法编辑。采用上述第二种方法时,将docx文件直接转换为word XML2003格式可能会导致丢失docx文件中的某些特效。
故,有必要提供一种docx文件信息解析方法及系统,以解决现有技术所存在的问题。
发明内容
本发明要解决的技术问题在于,针对现有技术中的docx文件信息解析不稳定,容易失去原有的信息和特效的缺陷,提供一种可以快速、准确、高效的解析docx文件的文件信息解析方法及系统。
本发明解决其技术问题所采用的技术方案是:构造一种docx文件信息解析方法,其中包括步骤:S10、获取所述docx文件内的内容信息文件的存放路径;S20、根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;S30、根据所述内容信息文件的文档对象模型的节点类型采用相应的元素解析器解析所述节点中的元素。
在本发明所述的docx文件信息解析方法中,所述步骤S30具体为:如所述内容信息文件的文档对象模型的节点的类型为文本,则采用文本解析器解析出文本的内容和属性信息;如所述内容信息文件的文档对象模型的节点的类型为图片,则采用图片解析器解析出图片的存储路径和尺寸;如所述内容信息文件的文档对象模型的节点的类型为表格,则采用表格解析器解析出表格的行列信息、单元格合并信息、单元格的内容信息以及单元格的属性信息;如所述内容信息文件的文档对象模型的节点的类型为多边形,则采用多边形解析器解析出多边形的边框信息以及内容信息。
在本发明所述的docx文件信息解析方法中,当解析所述单元格的内容信息以及所述多边形的内容信息时,根据所述单元格的内容信息以及所述多边形的内容信息中元素的类型采用相应的元素解析器解析所述元素。
在本发明所述的docx文件信息解析方法中,所述docx文件信息解析方法还包括步骤:S40、根据解析后的所述节点中的元素生成元素信息,并将所述元素信息存储在预设的结构体中。
在本发明所述的docx文件信息解析方法中,所述docx文件信息解析方法还包括步骤:S50、将存储有所述元素信息的结构体插入到所述docx文件的多叉树存储结构体中以形成排版信息。
本发明还构造一种docx文件信息解析系统,其中包括:获取模块:用于获取所述docx文件内的内容信息文件的存放路径;创建模块:用于根据所述内容信息文件的存放路径创建所述内容信息文件的文档对象模型;以及解析模块:用于根据所述内容信息文件的文档对象模型的节点类型采用相应的元素解析器解析所述节点中的元素。
在本发明所述的docx文件信息解析系统中,所述解析模块包括:文本解析器:用于如所述内容信息文件的文档对象模型的节点的类型为文本,则解析出文本的内容和属性信息;图片解析器:用于如所述内容信息文件的文档对象模型的节点的类型为图片,则解析出图片的存储路径和尺寸;表格解析器:用于如所述内容信息文件的文档对象模型的节点的类型为表格,则解析出表格的行列信息、单元格合并信息、单元格的内容信息以及单元格的属性信息;以及多边形解析器:用于如所述内容信息文件的文档对象模型的节点的类型为多边形,则解析出多边形的边框信息以及内容信息。
在本发明所述的docx文件信息解析系统中,所述表格解析器还用于根据所述单元格的内容信息中元素的类型采用相应的元素解析器解析所述元素;所述多边形解析器还用于根据所述多边形的内容信息中元素的类型采用相应的元素解析器解析所述元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市万兴软件有限公司,未经深圳市万兴软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110190027.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:造口术器具
- 下一篇:医疗用系统及其控制方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置