[发明专利]一种基于XML的PDF文档信息抽取系统的方法无效
申请号: | 200510039015.X | 申请日: | 2005-04-18 |
公开(公告)号: | CN1687926A | 公开(公告)日: | 2005-10-26 |
发明(设计)人: | 张文德;宋艳娟;杨传耀;朱丹红;陈俊林 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 350002*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于XML的PDF文档信息抽取系统的方法,它是一种信息转化的方法,属于信息技术类,其步骤为:(1)DTD的设计,分析并选择出外部信息元数据和内部信息元数据;(2)实现对PDF文档的语义信息的抽取,先将提取存放PDF文档中各页的内容流,并进行解码,然后将PDF文档的物理结构转化为逻辑结构,外部信息元数据的提取,内部信息元数据的提取;(3)生成XML文档。本发明可以对转换后的XML文档做进一步的操作,从而提高文档自动分类和用户信息检索的效率。 | ||
搜索关键词: | 一种 基于 xml pdf 文档 信息 抽取 系统 方法 | ||
【主权项】:
1.一种基于XML的PDF文档信息抽取系统的方法,其特征在于:其步骤为:(1)DTD的设计,分析并选择出外部信息元数据和内部信息元数据;(2)实现对PDF文档的语义信息的抽取,先将提取存放PDF文档中各页的内容流,并进行解码,然后将PDF文档的物理结构转化为逻辑结构,外部信息元数据的提取,内部信息元数据的提取;(3)生成XML文档。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200510039015.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种实现双语网页搜索的方法
- 下一篇:一种茯苓保健面条