[发明专利]流式电子书产生的方法及网站系统有效
申请号: | 201510043022.0 | 申请日: | 2015-01-28 |
公开(公告)号: | CN105095166B | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 崔殷豪;赖鼎宇 | 申请(专利权)人: | 葆光信息有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24 |
代理公司: | 北京国昊天诚知识产权代理有限公司11315 | 代理人: | 许志勇 |
地址: | 新加坡莱佛士坊*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子书 产生 方法 网站 系统 | ||
技术领域
本发明关于一种电子书产生方法,特别是一种流式电子书产生方法及产生流式电子书的网站系统。
背景技术
随着科技的进步,手持显示装置(如平板电脑、手机)已普及于人们的生活周遭。人们常使用此等手持显示装置浏览网页、阅读电子书。因此,数字书籍的需求量大增,使得出版社开始考虑在出版传统纸本书籍之外,亦可踏入数字出版之门。
然而,常见将纸本书籍转换为电子书文件的作法是直接使用印刷前的非结构化(Unstructured)文件(如PDF文档)。然而,此种文件虽已可将书籍内容呈现在手持显示装置上,但对阅读者而言,如对书页上的特定内容想要看的更仔细时(特别是使用如手机等荧幕较小的装置),仅能将书页放大(Zoom In),当又要浏览其他部分的内容时,又需要拖曳至该区域,相当不便。
而,部分厂商会对非结构化文件做进一步处理。采用现有转档系统将非结构化文件转换成结构化的流式文件(如html文档),但现有转档系统无法正确的转换,导致转时换后的文件大都无法采用,因此,厂商需耗费庞大的人力手动获取出书页上的文字与图案。接着,又需要将截取出的文字与图案重新进行排版,耗费庞大的人力。
发明内容
鉴于以上的问题,本发明在于提供一种流式(reflow content)电子书产生方法及产生流式电子书的网站系统,藉以解决先前技术所存在纸本书籍转换成数字书籍时排版需耗费大量人力及文字校对不易的问题。
本发明的一实施例提供一种流式电子书产生方法,包含下列步骤:
首先,接收一数字文件,其中数字文件包含至少一书页内容。接着,识别书页内容上的至少一原始段落的多数文字,其中多数文字沿一书写方向排列为多数行。再,识别多数行的排列样式,以根据排列样式,串接多数行的多数文字为至少一流式段落并计算对应各流式段落的一辨识信心值。又,显示流式段落的多数文字于一编辑界面,并根据一门槛值,标记辨识信心值低于门槛值的流式段落。于是,用户可于编辑界面中确认或修改经标记的流式段落。最后,储存所有流式段落为一流式电子书文件。通过上述的步骤,可简易的将非结构化的书籍文件转换成流式电子书文件,并且可供用户通过编辑界面快速检阅可能发生辨识错误的地方。
在此,编辑界面可具有对应多数显示装置的装置选项,以供用户选择显示多数显示装置中的一者所显示的段落的画面,其中显示装置的显示画面尺寸不同。藉此,用户可在编辑界面上编辑流式段落,且在编辑界面所看到的内容即为对应显示装置所能看到的编排内容。
在一实施例中,识别书页内容上的多数文字的步骤可包括识别每一书页内容中的多数文字并统计其二维坐标,其中二维坐标包含横坐标及纵坐标;根据多数文字的纵坐标的多数者决定上下边界,并根据多数文字的横坐标的多数者决定左右边界;及定义各书页内容中,位于上下边界与左右边界内的多数文字为一内文。藉此,可排除书页中的页码、章节名称、注解等非本文的内容,以降低辨识错误的机率。
在一实施例中,排列样式包含字型、文字大小、缩排距离、文字间距及行距。例如,可先侦测原始段落的缩排距离,再根据原始段落的缩排距离,排列对应的内文的流式段落。藉此,可提高将原始段落转换成流式段落的正确率。
在一些实施例中,前述流式电子书产生方法还可包括一非文字区块识别步骤,先识别一图片或一表格为一非文字区块,再识别每一该非文字区块的一间距,最后将间距小于一预定值的非文字区块合并。藉此,可将零碎的图表整合为一图片,以避免零碎的图表被误认为文字段落,造成辨识错误。
本发明的另一实施例提供一种产生流式电子书的网站系统,包括网络接收模块、影像识别模块以及网站界面模块。
网络接收模块接收用户上传的数字文件,其中该数字文件包含至少一书页内容。影像识别模块识别书页内容上的多数文字,其中多数文字沿一书写方向排列为多数行,并识别多数行的排列样式,以根据排列样式串接多数行的多数文字为至少一流式段落并计算对应各流式段落的一辨识信心值。网站界面模块包含一编辑界面,以显示流式段落的多数文字,并根据一门槛值,标记辨识信心值低于门槛值的流式段落。藉此,用户可通过编辑界面快速检阅可能发生辨识错误的地方。
在一实施例中,编辑界面可具有并列的第一浏览视窗及第二浏览视窗。第一浏览视窗显示书页内容,第二浏览视窗显示对应的经识别的流式段落。藉此,用户可方便的对照原始段落与流式段落。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于葆光信息有限公司,未经葆光信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510043022.0/2.html,转载请声明来源钻瓜专利网。