[发明专利]一种基于大数据的文字识别系统及方法在审

申请号：	202011401460.7	申请日：	2020-12-02
公开（公告）号：	CN112380851A	公开（公告）日：	2021-02-19
发明（设计）人：	朱江	申请（专利权）人：	好活（昆山）网络科技有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/253
代理公司：	暂无信息	代理人：	暂无信息
地址：	215300 江苏省苏州市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据文字识别系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于大数据的文字识别系统，其特征在于，包括：

文件输入模块，所述文件输入模块用于包含文字的文件，所述文件的类型包括图片和视频；

文件类型识别模块，所述文件类型识别模块用于识别输入的所述包含文字的文件的格式属性，并将所述包含文字的文件自动分类为图片类型或视频类型；

文件类型转换模块，所述文件类型转换模块包括图片类型转换单元以及视频类型转换单元，所述图片类型转换单元用于将输入的所述包含文字的图片转换成统一图片格式的第一图片并保存在第一文件夹中，所述视频类型转换单元用于将输入的所述包含文字的视频转换成统一视频格式并保存在统一视频文件夹中；

播放截图模块，所述播放截图模块用于播放被转换成统一视频格式的视频并将包含文字的画面截图生成统一图片格式的第二图片保存到第二文件夹中；

文字识别模块，所述文字识别模块用于识别所述第一图片以及所述第二图片中包含的文字并生成第一文字；

智能处理模块，所述智能处理模块用于接收所述第一文字，并对所述第一文字进行修正处理生成第二文字；

输出模块，所述输出模块用于输出所述第二文字；

通讯模块，所述通讯模块用于将该基于大数据的文字识别系统接入互联网；

大数据库，所述大数据库包含标准文字集、标准符号集、标准字母集、标准数字集以及语法集。

2.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述文件输入模块、所述文件类型识别模块、所述文件类型转换模块、所述播放截图模块、所述文字识别模块、所述输出模块、所述通讯模块以及所述大数据库均与所述智能处理模块通信连接。

3.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述大数据库存储在云服务器中和/或本地主机中。

4.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述统一图片格式为JPEG格式，所述统一视频格式为AVI格式。

5.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述包含文字的文件的格式属性包括图片格式属性和视频格式属性；所述文件的格式属性包括BMP图片格式、TIFF图片格式、PNG图片格式以及JPEG图片格式；所述视频格式属性包括GIF视频格式、FLV视频格式、swf视频格式、rm视频格式、rmvb视频格式、MP4视频格式、3GP视频格式、AVI视频格式、MOV视频格式以及QT视频格式。

6.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述播放截图模块还包括播放调速单元，所述播放调速单元用于自动调节视频的播放速度，且调节视频的播放速度为20-30帧/秒。

7.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述文字识别模块用于识别图片中的文字区域并将所述文字区域中包含的文字生成第一文字，再将所述文字区域和生成的所述第一文字一同上传给所述智能处理模块进行处理。

8.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：还包括字体设置模块，所述字体设置模块用于设置所述第二文字的字体，且所述字体设置模块内包含字体数据库，所述字体设置模块与所述智能处理模块通信连接。

9.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：还包括缓存自动删除模块，所述缓存自动删除模块用于自动删除存储的第一图片、第二图片、被转换成统一视频格式的视频、输入的包含文字的图片、输入的包含文字的视频以及输出的文档，且所述缓存自动删除模块与所述智能处理模块通信连接。

10.一种基于大数据的图像中文字识别方法，其特征在于：包括如下步骤：

步骤一、打开权利要求1-9任一项所述的基于大数据的文字识别系统，通讯模块自动将所述的基于大数据的文字识别系统接入互联网并与保存在云服务器中或者本地主机中的大数据库建立连接，同时设定视频播放速度、设定输出字体以及设定缓存自动删除模块自动执行删除任务的条件；

步骤二、输入文件，将包含文字的图片和包含文字的视频通过文件输入模块输入所述基于大数据的文字识别系统中；

步骤三、识别文件类型，文件类型识别模块自动识别输入的包含文字的文件的格式属性，和包含文字的视频格式属性，并将包含文字的图片自动分类为图片类型以及将包含文字的视频自动分类为视频类型；

步骤四、转换文件类型，图片类型转换单元将输入的包含文字的图片转换成统一图片格式的第一图片并保存在第一文件夹中；视频类型转换单元将输入的包含文字的视频转换成统一视频格式并保存在统一视频文件夹中；

步骤五、播放截图，当统一视频文件夹中具有转换成统一视频格式的包含文字的视频时，播放截图模块播放被转换成统一视频格式的视频并将包含文字的画面截图生成统一图片格式的第二图片保存到第二文件夹中，当统一视频文件夹中没有转换成统一视频格式的包含文字的视频时，且在第一文件夹中具有第一图片时直接进入下一步；

步骤六、识别文字，文字识别模块自动识别所述第一图片以及所述第二图片中包含的文字并生成第一文字；

步骤七、修整处理，智能处理模块接收第一文字，并依据大数据库的内部包含的标准文字集、标准符号集、标准字母集、标准数字集以及语法集对所述第一文字进行修正处理生成第二文字；

步骤八、输出识别结果，输出模块将所述第二文字以文档的形式输出，并保存在设定的文件夹中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于好活（昆山）网络科技有限公司，未经好活（昆山）网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011401460.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于大数据的文字识别系统及方法在审

专利文献下载