[发明专利]一种版式文件图文自动关联的方法及系统有效
申请号: | 200810239369.2 | 申请日: | 2008-12-11 |
公开(公告)号: | CN101419717A | 公开(公告)日: | 2009-04-29 |
发明(设计)人: | 徐剑波;董宁;王辉 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06T11/60 | 分类号: | G06T11/60 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 郭润湘 |
地址: | 100871北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 版式 文件 图文 自动 关联 方法 系统 | ||
技术领域
本发明涉及信息技术处理领域,尤其涉及一种版式文件中图文自动关联的方法及系统。
背景技术
现有技术中实现基于版式文件以及人工干预来提取和组合文章的方法。这种方法的优点是根据版式文件的版面信息结构提取版面信息和所有的稿件信息;缺点是:a)不同的版式文件都需要花时间理解其内部的信息存储格式,导致了不同的版式文件需要开发不同的插件,开发难度大且易用性和扩展性不是很好;b)版式文件的必须存储稿件内部之间的关联关系;通过分析PS文件以及Fit等文件,发现版式文件中记录的稿件关系并不能够有效的还原版式文件中文章中上下文的关系,造成了后端标引的时候工作量很大。
根据目前可以基于版式文件记录的信息来提取稿件的方法;这种方法的优点是高效的利用了版式文件提供的公共的信息,实现了自动化成块操作;缺点是该方法没有实现自动成文,需要在结合人工标引的方式来实现文章上下文的正确的组合。
综上,从版式文件中获取的文字块、图片块等数据信息并没有有效的组织在一起,而是分散开来的,比如一篇文章的引题,标题,副题是分离开的,标题和文章的正文之间也是分离开的;这样就需要人工进行相应的关联操作,还原文章的引题,标题,副题以及正文,以保证数据信息的正确性和完备性,存在着一定的工作量。
发明内容
一篇文章可能包含引题,标题,副题,正文,附图等相关内容。本发明的目的是通过图文自动关联的方法,进行图片块与文章的自动匹配,使文章中引用的图片块与文章或者正文合并在一起,还原成为文章或者正文的附图。
本发明的具体实现方法是:
A:从版式文件中获取图片块集合{P}和文章集合{A};
B:从反解版式文件后得到的图片块集合{P}中取出一个与已取图片块不同的图片块;
C:依次获取文章集合{A}中的文章,比较获取得到的文章是否与步骤B中取出的图片块近邻,如果没有文章与图片块近邻,直接转至步骤D;否则,则将此图片块设置为该文章的附图;
D:重复以上步骤,直至图片块集合{P}中的所有图片块被取过一次。
进一步的,在文章集合{A}中查找与图片块近邻的文章;判断文章与图片块是否近邻具体操作为:
设置获取得到的图片块为P1,获取得到的文章为A1;新建文字块集合{T},从文章A1中获取文章的引题,标题,副题所对应的文字块,放置在集合{T}中;
依次获取文字块集合{T}中的文字块,设为T1,查看图片块P1是否与文字块T1近邻;如果近邻条件成立,记录图片块P与文章的重叠度;如近邻条件不成立,继续从文字块集合{T}中获取下一个文字块,继续同该图片块进行比较是否近邻;如果图片块和文字块集合{T}中任何一个文字块都不存在近邻的关系,那么执行以下步骤;
比较图片块P1是否与文章正文近邻:新建文字块集合{L},如果文章正文对应的文字块的子块个数大于1,则获取得到该正文块的所有子块,并放置在集合{L}中,依次获取集合{L}中的文字块,设为T1,查看图片块P1与文字块T1是否近邻;否则比较文章正文对应的文字块同图片块P1是否近邻;如果近邻条件成立,表明图片块与文章近邻关系成立,记录图片块P1与文章的重叠度。
进一步的,还包括以下操作:
创建文章集合{N},筛选文章集合{A}中只存在正文的文章,添加到文章集合{N}中,并从文章集合{A}中删除;
创建文章集合{M},筛选文章集合{A}中正文为空的文章,添加到文章集合{M}中,并从文章集合{A}中删除;
将{N}中每篇文章正文对应的文字块与文章集合{M}比较,如果能找到匹配的文章,将此文章正文对应的文字块设置为匹配文章的正文,并从文章集合{N}中删除该文章;如找不到匹配的文章,则将该文章重新添加到文章集合{A}中,并从文章集合{N}中删除该文章;最后将文章集合{M}重新添加到文章集合{A}中。
本发明还提供一种版式文件中图文自动关联系统,所述图文自动关联系统包括:
图片块获取器,用于从版式文件中获取图片块,形成图片块集合;
文章获取器,用于从从版式文件中获取文章,形成文章集合;
图片块提取器,用于从反解版式文件后得到的图片块集合中取出一个与已取图片块不同的图片块,直至图片块集合中的所有图片块被取过一次;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810239369.2/2.html,转载请声明来源钻瓜专利网。