[发明专利]PDF文件的预览方法、生成方法及处理方法有效

申请号：	201811068441.X	申请日：	2018-09-13
公开（公告）号：	CN109446490B	公开（公告）日：	2023-07-21
发明（设计）人：	许卫鹏	申请（专利权）人：	杭州索骥数据科技有限公司
主分类号：	G06F40/14	分类号：	G06F40/14;G06F16/951
代理公司：	杭州天昊专利代理事务所(特殊普通合伙) 33283	代理人：	吴金姿
地址：	310000 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	pdf 文件预览方法生成处理
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种PDF文件的预览方法、生成方法以及处理方法，该预览方法包括：解析原始PDF文件，获得原始PDF文件中的文本和样式、字体以及图片；将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱，形成乱序文件；将每一页PDF所形成的乱序文件进行存储，同时关联存储该页PDF中文字所对应的字体文件和图片文件；获取输入的PDF预览信息；根据PDF预览信息查询存储的乱序文件，获得PDF预览信息所在的那一页PDF或多页的PDF；根据绝对定位的方式获得文字的顺序排列，获取与文字对应的字体文件和图片文件并进行重组；并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。

技术领域

本发明涉及一种文件处理技术，且特别涉及一种PDF文件的预览方法、生成方法及处理方法。

背景技术

PDF文件(便携式文档格式)是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。目前互联网上大部分的内容或信息都以PDF文件的形式向用户展示。用户在使用中需要对PDF文件进行预览或编辑。

对于预览而言，目前主要有三种方式，第一种方式是用户通过下载整个PDF文件来实现文档内容阅读。在该种方法中，必须下载完整的PDF，文件可能过大且无法控制用户可以阅读的权限，同时极容易被爬虫爬取，不利于版权保护。第二种方式是服务器将PDF转换成图片提供预览，该种方法中PDF文件转换成图片时，图片过大会浪费传输流量和时间。第三种方式是服务器将PDF转换成纯文本提供预览，转换成纯文本时，无法还原PDF文件的原貌，可能造成用户阅读困难。

对于编辑而言，第一种是使用官方的PDF阅读器对PDF进行编辑操作，官方的PDF阅读器编辑PDF流程繁琐、可操作性差且其安装所占用的计算机内存也非常的大，使用非常的不方便。第二种方法是将PDF转换成word格式进行编辑，再重新生成PDF，这种方式生成PDF的代码过于繁琐，不够灵活，且难以形成完整的解决方案。

发明内容

本发明为了克服现有技术的不足，提供一种PDF文件的预览方法、生成方法及处理方法。

为了实现上述目的，本发明提供一种PDF文件的预览方法，该方法包括：

解析原始PDF文件，获得原始PDF文件中的文本和样式、字体以及图片；

将获取的文本和样式中文字部分的顺序以绝对定位的方式随机打乱，形成乱序文件；

将每一页PDF所形成的乱序文件进行存储，同时关联存储该页PDF中文字所对应的字体文件和图片文件；

获取输入的PDF预览信息；

根据PDF预览信息查询存储的乱序文件，获得PDF预览信息所在的那一页PDF或多页的PDF；

根据绝对定位的方式获得文字的顺序排列，同时获取与文字对应的字体文件和图片文件并进行重组；并在浏览器端以PDF的样式展示重组后的且满足PDF预览信息的那一页PDF或多页的PDF。

根据本发明的一实施例，在获得原始PDF文件中的文本和样式后将文本和样式转换为可缩放矢量图形，再将可缩放矢量图形中的文字打乱形成乱序文件。

根据本发明的一实施例，在将每一页PDF所形成的乱序文件进行存储时，将该页中与文字对应的图片文件和字体文件分别存储至乱序文件存储文件夹下的图片目录和字体目录。

根据本发明的一实施例，所述PDF预览信息包括原始PDF文件的页数或原始PDF文件中所包含的词语。