[发明专利]训练分类器的方法、装置、电子设备和计算机可读存储介质在审
申请号: | 201910439084.1 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110222746A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 卢永晨 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 北京竹辰知识产权代理事务所(普通合伙) 11706 | 代理人: | 陈龙 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 身份证图像 分类器 汉字 标签信息 集合 计算机可读存储介质 电子设备 输出项目 预设区域 身份证验证 训练分类器 应用 | ||
本公开公开了一种训练卷积神经网络分类器的方法,其特征在于,包括:获取身份证图像集合,所述身份证图像集合中的身份证图像与汉字标签信息对应,所述汉字标签信息用于指示与所述汉字标签信息对应的身份证图像的预设区域所包括的汉字;确定卷积神经网络分类器的输出项目,所述卷积神经网络分类器的输出项目与所述汉字标签信息对应;根据所述身份证图像集合训练所述卷积神经网络分类器。本公开实施例提供的训练卷积神经网络分类器的方法、装置、电子设备和计算机可读存储介质,能够根据身份证图像集合训练卷积神经网络分类器,从而通过该卷积神经网络分类器识别身份证图像的预设区域中的汉字例如生僻汉字,以便应用于各种身份证验证场合。
技术领域
本公开涉及信息处理领域,尤其涉及一种训练分类器的方法、装置、电子设备及计算机可读存储介质。
背景技术
随着网络技术的进步,互联网已经成为服务于各种业务的重要媒介,例如通过互联网处理诸如银行业务等重要业务时,需要获取用户的身份证图像,从而通过身份证图像提取用户的身份信息以用于身份证验证,从而开展重要业务。
在上述验证过程中,往往通过识别装置和/或识别程序从用户上传的身份证图像中提取身份证图像区域,然后在身份证图像区域中识别预设区域中的文字,从而提取用户的身份信息,例如姓名、住址等信息。但是正在使用中的汉字的数量是非常巨大的,据统计,身份证涉及的汉字中,常见的汉字大致有4000多个,而不常见的汉字大致有5000多个,现有的识别装置和/或识别程序对于身份证图像中的大多数生僻汉字无法做到准确识别,从而也就无法通过互联网处理诸如银行业务等重要业务,为互联网应用带来了阻碍。
发明内容
本公开实施例提供的训练分类器的方法、装置、电子设备和计算机可读存储介质,能够根据身份证图像集合训练分类器,从而通过该卷积神经网络分类器识别身份证图像的预设区域中的汉字例如生僻汉字,以便应用于各种身份证验证场合。
第一方面,本公开实施例提供一种训练分类器的方法,其特征在于,包括:获取身份证图像集合,所述身份证图像集合中的身份证图像与汉字标签信息对应,所述汉字标签信息用于指示与所述汉字标签信息对应的身份证图像的预设区域所包括的汉字;确定卷积神经网络分类器的输出项目,所述卷积神经网络分类器的输出项目与所述汉字标签信息对应;根据所述身份证图像集合训练所述卷积神经网络分类器。
进一步的,所述身份证图像集合包括第一子集合和第二子集合,所述第一子集合中的身份证图像对应的所述汉字标签信息所指示的所述汉字包括常用汉字,所述第二子集合中的身份证图像对应的所述汉字标签信息所指示的所述汉字包括生僻汉字。
进一步的,根据所述身份证图像集合训练所述卷积神经网络分类器,包括:从所述第一子集合中确定第一数量的身份证图像;从所述第二子集合中确定第二数量的身份证图像;根据所述第一数量的身份证图像和所述第二数量的身份证图像更新所述卷积神经网络分类器的参数。
进一步的,所述第一数量为96,所述第二数量为32。
进一步的,所述获取身份证图像集合,包括获取所述第二子集合;获取所述第二子集合,包括:获取身份证模板图像;获取生僻汉字图像;根据所述生僻汉字图像和所述身份证模板图像合成所述第二子集合中的身份证图像。
进一步的,所述获取生僻汉字图像,包括:基于宋体5号字获取所述生僻汉字图像,所述生僻汉字图像中的生僻汉字的颜色为黑色,所述生僻汉字图像的底色为白色;所述根据所述生僻汉字图像和所述身份证模板图像合成所述第二子集合中的身份证图像,包括:将所述生僻汉字图像覆盖至所述身份证模板图像的所述预设区域。
进一步的,所述身份证模板图像的所述预设区域包括身份证底纹。
进一步的,将所述生僻汉字图像覆盖至所述身份证模板图像的所述预设区域,包括:将所述生僻汉字图像中的黑色的生僻汉字覆盖至所述身份证模板图像的所述预设区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910439084.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于相似性学习及其增强的细胞类型鉴定方法
- 下一篇:一种优化的聚类方法