[发明专利]一种版式文件自动成文的方法及系统有效

专利信息
申请号: 200810227302.7 申请日: 2008-11-26
公开(公告)号: CN101441621A 公开(公告)日: 2009-05-27
发明(设计)人: 徐剑波;董宁;王辉 申请(专利权)人: 北大方正集团有限公司;北京方正阿帕比技术有限公司
主分类号: G06F17/22 分类号: G06F17/22
代理公司: 北京同达信恒知识产权代理有限公司 代理人: 郭润湘
地址: 100871北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 版式 文件 自动 成文 方法 系统
【说明书】:

技术领域

发明涉及信息技术处理领域,尤其涉及一种版式文件中自动成文的方法及系统。 

背景技术

现有技术中实现基于版式文件以及人工干预来提取和组合文章的方法。这种方法的优点是根据版式文件的版面信息结构提取版面信息和所有的稿件信息;缺点是:a)不同的版式文件都需要花时间理解其内部的信息存储格式,导致了不同的版式文件需要开发不同的插件,开发难度大且易用性和扩展性不是很好;b)版式文件的必须存储稿件内部之间的关联关系;通过分析PS文件以及Fit等文件,发现版式文件中记录的稿件关系并不能够有效的还原版式文件中文章中上下文的关系,造成了后端标引的时候工作量很大。 

根据目前可以基于版式文件记录的信息来提取稿件的方法;这种方法的优点是高效的利用了版式文件提供的公共的信息,实现了自动化成块操作;缺点是该方法没有实现自动成文,需要在结合人工标引的方式来实现文章上下文的正确的组合。 

综上,从版式文件中获取的文字块、图片块等数据信息并没有有效的组织在一起,而是分散开来的,比如一篇文章的引题,标题,副题是分离开的,标题和文章的正文之间也是分离开的;这样就需要人工进行相应的关联操作,还原文章的引题,标题,副题以及正文,以保证数据信息的正确性和完备性。 

发明内容

针对现有技术中存在的缺陷,本发明的目的是提供一种反解版式文件后自 动成文的方法,该方法能够实现将反解任何版式文件后获得的文字块自动关联起来,还原成为一篇文章;该篇文章可能包含着引题,标题,副题,正文,附图等相关内容,还原了原有的文章内容之间上下文关系,这样就减少了人工操作的工作量,提高了效率。 

本发明的具体实现方法为: 

A:从文字块集合{S}中筛选出标题块集合{T},根据所述标题块集合{T}得到文章集合{A}; 

B:从文字块集合{S}中获取与文章集合{A}中匹配的文字块,设置为文章正文; 

C:获取文章集合{A}中的每篇文章,设置所述文章的其他组成信息。 

进一步,从文字块集合{S}中筛选出标题块集合{T},根据所述标题块集合{T}得到文章集合{A}具体为: 

从版式文件中获取的文字块集合{S}中筛选出文字块属性为标题的文字块,设置为标题块集合{T},并从原集合{S}中去除; 

创建文章集合{A};按文字块的信息,对标题块集合{T}进行比较、聚类;筛选出属于同一文章的标题块,得到文字块集合;验证筛选文字块集合中的文字块是否属于同一篇文章;创建相应的文章,将文字块集合设置为文章的标题块集合;将创建的文章添加到文章集合{A}中;最后得到文章集合{A}。 

进一步,从文字块集合{S}中获取与文章集合{A}中匹配的文字块具体包括: 

将文字块集合{S}中的每一个文字块与文章集合{A}进行聚类,找到能跟文章集合{A}中文章匹配的文字块,设置该文字块为该文章的正文,并从文字块集合{S}中删除该文字块; 

查看文字块集合{S}中是否存在文字块,若存在,为该文字块创建一篇文章,并将文字块设置为该文章的正文,将此文章添加到文章集合{A}中。 

所述文章其他信息,包括但不限于:引题,标题,副题中的一种或者全部 信息。 

本发明还提供一种版式文件自动成文系统,该成文系统包括: 

文字块集合生成器,用于从版式文件中生成文字块集合; 

标题块集合筛选器,用于从文字块集合中筛选出属性为标题的文字块; 

文章集合生成器,用于得到文章集合,所述文章集合按文字块的信息,对标题块集合进行比较、聚类得到; 

文章正文生成器,用于从文字块集合中获取与文章集合中匹配的文字块,并将此设置为文章正文; 

文章其他组成信息生成器,用于从文章集合中获取文章其他信息,并进行设置。 

进一步,所述文章其他信息,包括但不限于:引题,标题,副题中的一种或者全部信息。 

通过本发明提供的技术方案,能够找到属于同一篇文章的引题,标题,副题以及正文等文字块,能够还原原有的文章内容之间上下文关系。另外,还可以提高标引人员的工作效率,节省数据加工成本。 

附图说明

图1为本发明自动成文的流程图; 

图2是从标题块集合中提取近邻的文字块示意图; 

图3是从标题块集合中提取近邻的文字块,同时也实现了标题和引题的互换示意图; 

图4是从新创建的文字块集合中筛选出不属于同一篇文章的文字块示意图; 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810227302.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top