[发明专利]一种Pdf全文在线检索方法无效
申请号: | 201110319277.7 | 申请日: | 2011-10-19 |
公开(公告)号: | CN103064839A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 姜波 | 申请(专利权)人: | 北京中文在线数字出版股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 赵建刚 |
地址: | 100007 北京市东城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 全文 在线 检索 方法 | ||
技术领域
本发明涉及检索技术领域,特别是涉及一种Pdf全文在线检索方法。
背景技术
由于在线检索的时候很难深入到pdf文件里边进行检索,即使可以也是检索的效率不高,也不能准确定位检索到的内容在pdf文件的哪一页,因此对pdf的全文检索向来是不理想的。
因而,目前需要本领域技术人员迫切解决的一个技术问题就是:如何找到一种新型的对所需检索内容准确定位地进行一种Pdf全文在线检索方法。
发明内容
本发明所要解决的一个技术问题是提供一种Pdf全文在线检索方法,该方法可以实现对所需检索内容准确定位地进行Pdf全文在线检索。
为了解决上述问题,本发明公开了一种Pdf全文在线检索方法,包括:
在服务器端建立Pdf格式的图书的数据库;
对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息;
采用全文检索引擎架构的方法,依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索,获得所需检索文字内容的检索结果;
将检索文字内容的检索结果定位到该检索文字内容的所在页面;
点击该检索文字内容的所在页面,对该检索文字内容进行阅读,获得该检索文字内容的信息。
优选的,所述对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息的步骤,包括:
采用Pdf拆分工具,对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分,获得Pdf格式的图书的每一页内容的数据信息;
采用Pdf内容解析工具,Pdf格式的图书的每一页内容的数据信息进行解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。
优选的,所述采用全文检索引擎架构的方法,依据所需检索的文字内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索,获得所需检索文字内容的检索结果的步骤,包括:
针对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息建立能够进行索引的相应索引文件;
在浏览器的页面中输入所需检索文字内容的索引关键字;
采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索,获得所需检索文字内容的检索结果。
优选的,所述采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索,获得所需检索文字内容的检索结果的步骤,包括:
建立分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系;
依据所需检索文字内容的索引关键字,通过分词器对所需检索文字内容进行检索,获得检索结果。
优选的,所述将检索文字内容的检索结果定位到该检索文字内容的所在页面的步骤,包括:
依据检索文字内容的检索结果,执行相应的操作。
优选的,所述依据检索文字内容的检索结果,执行相应的操作的步骤,包括:
若服务器端建立Pdf格式的图书的数据库中存在所需检索文字内容的索引关键字,则依据分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系,获得所需检索文字内容的索引关键字的网页页面的数据信息;
若服务器端建立Pdf格式的图书的数据库中不存在所需检索文字内容的索引关键字,则发送返回信息,通知用户端没有查询到所需检索文字内容的相关信息。
优选的,所述索引关键字包括时间范围、信息关键字、信息分类关键字及信息有效期。
优选的,所述所需检索文字内容的索引关键字的网页页面的数据信息包括所需检索文字内容的文字信息及所需检索文字内容在网页页面的位置信息。
与现有技术相比,本发明具有以下优点:
可以实现对所需检索内容准确定位地进行Pdf全文在线检索。
总之,本发明提供一种Pdf全文在线检索方法,该方法可以实现对所需检索内容准确定位地进行Pdf全文在线检索。
附图说明
图1是本发明一种Pdf全文在线检索方法实施例的步骤流程图;
图2是本发明中Pdf在线分页实时浏览的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中文在线数字出版股份有限公司,未经北京中文在线数字出版股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110319277.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:检索装置和检索方法
- 下一篇:一种网页内容抽取的方法及装置