[发明专利]一种Pdf全文在线检索方法无效
申请号: | 201110319277.7 | 申请日: | 2011-10-19 |
公开(公告)号: | CN103064839A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 姜波 | 申请(专利权)人: | 北京中文在线数字出版股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 赵建刚 |
地址: | 100007 北京市东城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 全文 在线 检索 方法 | ||
1.一种Pdf全文在线检索方法,其特征在于,包括:
在服务器端建立Pdf格式的图书的数据库;
对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息;
采用全文检索引擎架构的方法,依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索,获得所需检索文字内容的检索结果;
将检索文字内容的检索结果定位到该检索文字内容的所在页面;
点击该检索文字内容的所在页面,对该检索文字内容进行阅读,获得该检索文字内容的信息。
2.根据权利要求1所述的方法,其特征在于,所述对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息的步骤,包括:
采用Pdf拆分工具,对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分,获得Pdf格式的图书的每一页内容的数据信息;
采用Pdf内容解析工具,Pdf格式的图书的每一页内容的数据信息进行解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。
3.根据权利要求1所述的方法,其特征在于,所述采用全文检索引擎架构的方法,依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索,获得所需检索文字内容的检索结果的步骤,包括:
针对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息建立能够进行索引的相应索引文件;
在浏览器的页面中输入所需检索文字内容的索引关键字;
采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索,获得所需检索文字内容的检索结果。
4.根据权利要求3所述的方法,其特征在于,所述采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索,获得所需检索文字内容的检索结果的步骤,包括:
建立分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系;
依据所需检索文字内容的索引关键字,通过分词器对所需检索文字内容进行检索,获得检索结果。
5.根据权利要求1所述的方法,其特征在于,所述将检索文字内容的检索结果定位到该检索文字内容的所在页面的步骤,包括:
依据检索文字内容的检索结果,执行相应的操作。
6.根据权利要求5所述的方法,其特征在于,所述依据检索文字内容的检索结果,执行相应的操作的步骤,包括:
若服务器端建立Pdf格式的图书的数据库中存在所需检索文字内容的索引关键字,则依据分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系,获得所需检索文字内容的索引关键字的网页页面的数据信息;
若服务器端建立Pdf格式的图书的数据厍中不存在所需检索文字内容的索引关键字,则发送返回信息,通知用户端没有查询到所需检索文字内容的相关信息。
7.根据权利要求6所述的方法,其特征在于:
所述索引关键字包括时间范围、信息关键字、信息分类关键字及信息有效期。
8.根据权利要求6所述的方法,其特征在于:
所述所需检索文字内容的索引关键字的网页页面的数据信息包括所需检索文字内容的文字信息及所需检索文字内容在网页页面的位置信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中文在线数字出版股份有限公司,未经北京中文在线数字出版股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110319277.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:检索装置和检索方法
- 下一篇:一种网页内容抽取的方法及装置