[发明专利]一种实时视频流的分布式文字识别系统有效
申请号: | 201710504745.5 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107169480B | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 凌贺飞;唐堃;李平 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;H04N21/218;H04N21/234;H04N21/4402 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 廖盈春;李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 视频 分布式 文字 识别 系统 | ||
本发明公开了一种实时视频流的分布式文字识别系统,属于视频流内容识别技术领域。本发明系统包括视频流管理模块、任务调度模块、视频流解码模块和文字识别模块,本发明系统在视频流文字识别处理的同时利用分布式任务调度框架实现多并发实时视频流的处理;视频流解码和文字识别的分离使系统具有更好的适应性,文字识别模块可以修改或替换不会影响视频流的解码模块,利用一个解码模块对应多个文字识别模块可以解决两个模块在处理速度上的不匹配问题;同时采用分布式系统结构实现多并发下的实时视频流处理。本发明主要用于实时性要求高的视频流处理中,而且能够满足多并发实时视频流的处理要求,本发明系统具有很好的实用价值。
技术领域
本发明属于视频流内容识别技术领域,更具体地,涉及一种实时视频流的分布式文字识别系统。
背景技术
近几年随着图像识别技术的快速发展,对视频中图像内容的识别需求也在不断增加。在传统的安防监控视频中,视频中的人物图像是识别的主要目标,而在桌面办公系统和在线教育等关注文字信息的视频中,识别的目标就是视频中的文字信息。为了达到实时获取识别视频中的文字信息的要求,需要对网络中传输的实时视频流进行及时的识别处理。同时实际的使用环境中一般需要对多个视频流同时进行文字识别处理,所以又要解决多并发视频流的实时文字识别处理的问题。
OCR(Optical Character Recognition,光学字符识别)是对图像信息进行分析处理获取文字信息的技术。OCR技术的应用相对成熟,在国内外的应用领域非常广泛,包括交通、金融、保险、教育等。OCR技术在英文字符和数字上的识别的出错率很低,主要是因为英文字母数和数字总共只有36个,而中文汉字的数量是数万个,常用汉字也有数千个,所以在识别的难度上要比英文和数字大很多。OCR的中文识别也经历了较长时间的成长变化,在各种新技术和方法下OCR的中文识别准确率也在不断提高。当前主流的OCR技术都是基于机器学习或深度学习来实现,其中Google的OCR开源框架Tesseract是一个典型代表。在英文和数字识别上,使用善于对英文和数字识别的Tesseract;在中文识别上,则可以利用深度学习来实现。
在面对多并发的视频处理时,一般都是采用分布式系统方案来处理。分布式系统的一个很大特点是它具有很好的可扩展性和容错性。在面对高并发和大数据处理时,通常单台服务器是无法对任务进行及时处理。而在分布式系统下可以根据需要随时新增适量服务器来实现任务的及时处理。分布式系统有多个种类,有分布式调度、分布式计算和分布式存储。分布式计算是当前使用最多的分布式系统,MapReduce和Spark框架是分布式计算下典型代表。在视频文件的处理上,很多现有系统采用的是MapReduce框架。
基于MapReduce框架的视频处理系统比较适合于对视频文件的处理,和对视频文件的处理不同的是,实时视频流的处理具有很高的实时性要求,在视频解码上,一般的单线程解码难以满足实时视频流解码要求。对于实时视频流的处理,不适合采用MapReduce框架。一方面是因为视频流中视频数据帧在解码上具有依赖性。视频压缩后的帧分为三种:I帧、P帧和B帧。I帧是可以直接进行解码得到原始图像数,而P帧和B帧是需要依赖前后的I帧或P帧才能进行解码。要实现正确地解码,一个有依赖关系的I帧、P帧和B帧最好是在同一个解码处进行解码。另一方面,在帧率一定的实时视频流下,视频流处理端单位时间内接收到的待处理视频数据量并未超过其处理能力。对于视频文件,单位时间内可以读取大量视频数据,对于超出机器自身处理能力的视频数据可以分发到其他机器进行处理;而实时视频流不同,因为视频帧率一定,单位时间内能够从网络上读取的视频数据量一般不会超过机器自身的处理能力。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种实时视频流的分布式文字识别系统,其目的在于对视频流进行多线程解码的同时采用分布式任务调度框架调度对解码图像的文字识别处理,由此解决多并发实时视频流的文字识别问题。
为实现上述目的,按照本发明的一个方面,提供了一种实时视频流的分布式文字识别系统,所述系统包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710504745.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于鞋子的打磨设备
- 下一篇:一种新型钥匙环