[发明专利]文本识别方法、装置、电子设备和存储介质在审

申请号：	202111466535.4	申请日：	2021-12-03
公开（公告）号：	CN114255419A	公开（公告）日：	2022-03-29
发明（设计）人：	钟欣;童勇勇;许实;陶涛;崔阿鹏;胡浩	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G06V20/40	分类号：	G06V20/40;G06V30/148;G06K9/62;G06V10/74;G06V10/764
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	程琛
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本识别方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种文本识别方法、装置、电子设备和存储介质，其中方法包括：获取待识别视频，并确定所述待识别视频中的各关键帧；对各关键帧进行拍摄状态分类，得到各关键帧的拍摄状态；基于各关键帧的拍摄状态，对各关键帧中重叠区域的候选识别文本进行整合，得到所述待识别视频的识别文本。本发明提供的方法、装置、电子设备和存储介质，应用录制视频的形式对多篇幅场景进行全貌采集，从而避免了多篇幅场景下的漏采问题，并且待识别视频自身包含采集顺序，无需再进行人工排序，降低了文本识别的人工需求。此外，基于各关键帧的拍摄状态对重叠区域的候选识别文本进行整合，实现了针对重叠区域的文本自动整合，保证了识别文本的可靠性。

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种文本识别方法、装置、电子设备和存储介质。

背景技术

随着科技的发展，OCR(Optical Character Recognition，光学字符识别)技术在人们的生活工作中得到了广泛的使用。

但针对某些多篇幅的文本识别场景下，例如长图、书籍等的文本识别场景，单张照片无法采集到待识别的场景全貌，可能需要拍摄多张照片并分别进行文本识别，此后需要将多张照片的识别文本进行人工排序处理，方能得到全场景的文本识别结果。

考虑到针对一个场景拍摄的多张照片中的内容可能存在重叠或者缺失的情况，在文本识别之后需要人工处理，导致了人工成本的增加；而针对篇幅较多的场景，需要大量照片覆盖场景内容，对应在文本识别过程中需要对大量照片进行排序和依次识别，导致识别效率低下。

发明内容

本发明提供一种文本识别方法、装置、电子设备和存储介质，用以解决现有技术中多篇幅场景下拍摄多张图像进行文本识别需要人工辅助，费时费力的问题。

本发明提供一种文本识别方法，包括：

获取待识别视频，并确定所述待识别视频中的各关键帧；

对各关键帧进行拍摄状态分类，得到各关键帧的拍摄状态；

基于各关键帧的拍摄状态，对各关键帧中重叠区域的候选识别文本进行整合，得到所述待识别视频的识别文本。