[发明专利]一种基于DXF文件格式的读取与XML转换的方法无效
申请号: | 201010271291.X | 申请日: | 2010-09-02 |
公开(公告)号: | CN101944080A | 公开(公告)日: | 2011-01-12 |
发明(设计)人: | 班晓娟;龙永霞 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/50 |
代理公司: | 北京东方汇众知识产权代理事务所(普通合伙) 11296 | 代理人: | 刘淑芬 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dxf 文件格式 读取 xml 转换 方法 | ||
技术领域
本发明涉及使用CAD工程制图的各类工程技术领域,DXF(drawing exchange format)图形交换文件格式在不同的CAD软件间进行图形数据交换,实现资源共享。本技术实现DXF图形交换文件转换成XML文件,有利于使用XML数据挖掘技术提取其有效数据,形成数据仓库,用于各类工程专用软件。
背景技术
本发明基于城市交通标志标线智能评价系统,实现从设计人员交付的交通道路CAD图提取有效数据而发明的。
不同CAD软件的文件格式不尽相同,出于商业考虑,一般其标准格式文件都没有公开。由于产品扩展的需要,CAD软件一般都提供二次开发工具来读取其数据,如AutoCAD的DWG文件,可以使用AutoDesk公司提供的ObjectARX、AutoLisp或VBA,通过编程来读取信息。把读取的数据转储至预定义好结构的关系型数据库中。这样,工程图形文件的数据挖掘就转化为关系型数据的挖掘。这种处理方式有其局限性,需依赖于CAD软件,不支持所有字节的读取;并且由于各种CAD软件各不相同,需按不同的方式来处理,给数据挖掘带来了不便。
AutoCAD采用了DXF(drawing exchange format)图形交换文件格式在不同的CAD软件间进行图形数据交换。随着AutoCAD软件的日益流行,DXF文件事实上已成为国际通用的图形数据交换标准。
DXF文件本质是一种ASCII文本文件,但它与普遍的文本文件又不尽相同,它是一种有限结构的文件,具有层次性,对各种参数的描述是用代码(组码)和与代码相关联的值(组值)构成,组码和组值联合起来表示一个数据的含义和数据的值。很多软件直接把DXF作为挖掘对象,通过文本挖掘工具对DXF进行数据挖掘,提取其中的有效数据,供工程图的应用系统使用。这种方式不足之处是:①虽然文本挖掘技术已经比较成熟,但挖掘数据的难度还是较大;②在提取数据时,需多次对DXF格式的文本文件进行操作,对文本文件操作效率较低。
发明内容
本发明所要解决的技术问题是提供一种可以从任何CAD图形文件转换成XML文件,方便提取出有效数据,实现资源共享的通用方法。
本发明不受CAD图形文件各个版本的限制,对所有的CAD图都能够转换成格式良好的XML文件。
转换后的XML文件,格式良好,数据结构清晰,使得数据挖掘提取变得十分简易。
本发明可以广泛用于各类工程软件当中。
本发明的技术方案是:
1.技术方案目标:如图1所示,左图是原DXF文件数据格式截图,右图为转换后的XML文件数据格式截图。从图中可以看出,转换后的XML文件数据格式已经较为容易阅读,而实际上,从计算机软件来看,对XML文件进行数据挖掘要比文本格式的DXF文件容易得多。
2.技术方案原理:要实现DXF文件转换成XML文件这样的功能,类似于计算机程序运行的编译阶段,如图2所示。
日常通用的自然语言是人们交流思想的主要工具,自然语言复杂,往往难以进行描述。而人与计算机打交道的程序设计语言则具有语法严格、结构正规、便于计算机处理的特点,而DXF文件数据格式也具有程序设计语言一样的特性。由于程序设计语言和自然语言存在共性,语言的核心是由语法和语义两部分组成。语法是语言的形式,语义是语言的内容,以语法为媒介来说明语义是语言的实质。语言是由具有独立意义的单词根据一定的语法规则构成的表达一定意义的句子组成的集合。给定字母表∑,一个语言可看做是∑*中的某个子集。要分析语言就要知道其结构,文法就是一种能够用有限规则来展现出语言的结构的形式。语言学家乔姆斯基(Avram Noam Chomsky)对某些自然语言进行研究的基础上,提出了一种用于描述语言的数学系统,并以此定义了4类不同的文法和语言。乔姆斯基分类,即将文法按状态转换函数的不同具体分成4类,4类文法对应4种类型的语言,且有相应的自动机来识别。从0型到3型,其后一类都是前一类的子集,且限制是逐步增强的,而描述语言的功能是逐步减弱的。确定的有限状态自动机(Deterministic Finite Automation,DFA)是一个具有离散输入、输出系统的数学模型,它是4类文法的识别装置中最基本、最重要的一种。而DXF文件的数据完全可以使用3型文法来表达,因此可以把DXF文件数据当成一种语言来识别,而使用的识别装置就是确定的有限状态自动机。
3.技术方案设计与实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010271291.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复合文档生成装置和方法
- 下一篇:变频器操作面板的安装结构