[发明专利]自动识别书页的方法及装置有效

申请号：	201910464694.7	申请日：	2019-05-30
公开（公告）号：	CN110209759B	公开（公告）日：	2021-10-22
发明（设计）人：	不公告发明人	申请（专利权）人：	北京网梯科技发展有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/33;G06F16/583;G06K9/32
代理公司：	暂无信息	代理人：	暂无信息
地址：	100098 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种自动识别书页的方法及装置，所述方法使用光学字符识别技术OCR和全文检索技术来实现书页自动定位，分为两个大的步骤：书籍全文检索数据库准备和页码自动识别。将书页的定位转化为文本的OCR识别和检索技术，解决了现有方法存在的问题，对OCR识别的精度要求较低，部分的文本识别错误不会影响整体的检索结果。
搜索关键词：	自动识别书页方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种自动识别书页的方法，其特征在于，所述方法包括检索数据的准备阶段和页码自动识别阶段；所述检索数据的准备阶段包括以下步骤：1‑1）将书籍的电子文档，按照页面生成一个个单独的分页数据，其中一个页面对应一条分页数据；1‑2）将生成的分页数据存入全文检索数据库；1‑3）在全文检索数据库中进行文本内容分词和词语索引，以及全文检索相关数据的生成和存储；1‑4）将全文检索数据库部署在云端或相应的设备上；所述的页码自动识别阶段包括以下步骤：2‑1）使用智能相机或其它设备的摄像头拍摄待定位书页的图像；2‑2）使用图像处理算法或机器学习方法自动对图像质量进行评估，若所述图像质量低于设定的阈值，则重新拍摄图像；2‑3）使用图像处理算法或机器学习方法自动识别出书页图像的大致方向，根据识别出的方向对图像做旋转，使文字方向自动调整为正常阅读的方向；2‑4）对调整后的图像进行自动分割，并自动识别其中的文字块或文字行中的文本；2‑5）将识别出的全部或部分的文本结果，作为检索词输入之前部署好的书籍全文检索数据库，使用自动搜索技术检索出包含检索词的分页数据，提取其对应的书名和页码，并根据检索词匹配的数量计算每个分页数据的检索分值；2‑6）对检索出的分页数据按照检索分值排序，将分值最高的分页数据作为检索结果；2‑7）将分值最高的检索分值与设定的第二阈值进行比较，基于比较结果，确定是重新拍摄图像还是输出从检索结果中提取的内容。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京网梯科技发展有限公司，未经北京网梯科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910464694.7/，转载请声明来源钻瓜专利网。

上一篇：一种基于张量分解的文本增量降维方法
下一篇：历审案件关联的方法和装置、电子设备、计算机可读介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]自动识别书页的方法及装置有效

专利文献下载