[发明专利]一种基于NLP和图像识别的二手图书版次识别装置在审

专利信息
申请号: 202011080879.7 申请日: 2020-10-11
公开(公告)号: CN112181969A 公开(公告)日: 2021-01-05
发明(设计)人: 蔡文源 申请(专利权)人: 北京维应科技有限责任公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/2453;G06F16/2458;G06K9/00;G06Q10/00
代理公司: 郑州欧凯专利代理事务所(普通合伙) 41166 代理人: 杨丽
地址: 100089 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 nlp 图像 识别 二手 图书 版次 装置
【说明书】:

发明属于图书回收技术领域,尤其为一种基于NLP和图像识别的二手图书版次识别装置,包括孔夫子、有路网、京东图书、当当网和豆瓣读书,所述孔夫子、有路网、京东图书、当当网和豆瓣读书内均包含有数据清洗、统一建模、海量分布式数据储存、文字识别系统、NLP机器学习、图像学习模块和信息检索系统;本发明,通过设置数据清洗、统一建模、海量分布式数据储存、文字识别系统、NLP机器学习、图像学习模块、信息检索系统、图像采集和数据监视,无需特殊硬件设备支持,操作人员只需要使用手机、相机、电脑摄像头任选其一将待识别书籍的封面、封底、书脊拍照上传到系统,即可获得相关版次信息,可以查询到书籍的多种信息。

技术领域

本发明属于图书回收技术领域,具体涉及一种基于NLP和图像识别的二手图书版次识别装置。

背景技术

在二手图书回收行业,一直面临着一个重要难题:图书版次判别,由于图书的书目数量巨大,据谷歌算法评估,全世界约有1亿3千万书目,这样庞大的数量,对于人工判断来说必然是不实际的,即便有普通技术和设备的辅助(使用手持条形码扫描设备,连接计算机系统,扫描ISBN进行识别),也面临关键信息(ISBN)磨损、缺失、遮挡而不能工作的情况,现有的图书回收和识别技术的使用范围较为宽泛,尚未解决具体行业纵深领域面临的问题,此处是二手图书版次识别,百度图片搜索、淘宝扫一扫:仅限于根据图像的相似度,检索相关的图片、网页、商品信息,未能给出识别对象的通用属性信息,另外腾讯OCR:主要解决的是图像转换为文字的问题,对于转换后的文字在特定领域所代表的语义未做处理,一般对于有不同程度的磨损、残缺、附着物遮挡,导致不能准确判断图书的版次信息,包括:书名、作者、出版社、ISBN、版次、定价、出版日期的图书,由于这些原因,图书的国际标准书号(ISBN)并不唯一,即相同的ISBN和书名,有多个版本,出版日期、定价等信息是不同的,进行交易时需要区别对待,导致交易时无法区分图书的类别和定价,因此针对上问题,特提出一种基于NLP和图像识别的二手图书版次识别装置。

发明内容

为解决上述背景技术中提出的问题。本发明提供了一种基于NLP和图像识别的二手图书版次识别装置,具有使用方便、搜寻信息全面和大幅度提高回收人员收集效率的特点。

为实现上述目的,本发明提供如下技术方案:一种基于NLP和图像识别的二手图书版次识别装置,包括孔夫子、有路网、京东图书、当当网和豆瓣读书,所述孔夫子、有路网、京东图书、当当网和豆瓣读书内均包含有数据清洗、统一建模、海量分布式数据储存、文字识别系统、NLP机器学习、图像学习模块和信息检索系统。

优选的,其系统组建和图书查询方法:

步骤一:在孔夫子、有路网、京东图书、当当网和豆瓣读书平台上获取书目信息,并通过数据清洗作为原始的数据积累;

步骤二:多种书籍信息收集之后通过统一建模将书名、作者、出版社。出版日期、ISBN、定价进行统一整理,并通过自动生成新型的数据;

步骤三:将自动生成新型的数据通过转化并储存在海量分布式数据储存中;

步骤四:使用人员通过手机或电脑上的elastic search网站集群作为海量分布式存储引擎,在丰富的数据样本基础上,开发图像学习模块、NLP机器学习、文字识别系统、信息检索系统;

步骤五:在系统自动化进行数据抓取、清洗、建模的过程中,我们需要实时观察系统运行的正确性,并做出适当干预,并对信息的准确性进行确认;

步骤六:然后回收人员通过手机上的微信或者安装该系统的端独立应用软件以及电脑、外置高清的图像采集对需要回收的图书进行拍照或者扫描采集;

步骤七:拍照或扫描之后该图书的各种信息将会通过手机或电脑进行显示。

与现有技术相比,本发明的有益效果是:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京维应科技有限责任公司,未经北京维应科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011080879.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top