[发明专利]文字区域排版方向的确定方法及装置有效
申请号: | 201811437303.4 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109582946B | 公开(公告)日: | 2019-10-25 |
发明(设计)人: | 聂镭;李睿;聂颖;郑权;张峰 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06F17/25 | 分类号: | G06F17/25 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡;董文倩 |
地址: | 519000 广东省珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 排版 文字区域 特征参数 多组数据 相邻文字 神经 图像文字识别 方向确定 机器学习 组数据 概率 | ||
本发明公开了一种文字区域排版方向的确定方法及装置。其中,该方法包括:识别文字区域的所有文字;将所有文字中的每个文字作为神经网络语言模型的输入,得到每个文字的特征参数,其中,特征参数包括:每个文字的相对相邻文字以及该相对相邻文字的出现概率,神经网络语言模型为使用多组数据通过机器学习训练得到的,多组数据中的每组数据均包括:文字和该文字的特征参数;根据特征参数确定所有文字中每个文字的排版方向;基于每个文字的排版方向确定文字区域的排版方向。本发明解决了相关技术中在进行图像文字识别时无法得到文字区域的排版方向的技术问题。
技术领域
本发明涉及字符识别技术领域,具体而言,涉及一种文字区域排版方向的确定方法及装置。
背景技术
证件识别是指使用技术对证件信息自动提取,并对证件信息按要素格式输出信息,得到规则化的数据,以便于计算机系统管理。当前,主要是通过光学字符识别OCR文字识别,具体地,通过手机或者带有摄像头的终端设备对证件进行拍照,并对证件做OCR文字识别。上述证件可以为各种类型的身份证件,例如,驾驶证、行驶证、护照、车牌、银行卡号、名片、文档等,其优点是:方案成本低,采集识别设备易获得,使用环境方便,功能容易扩展。
但是,上述方式直接应用于一些文字顺序为非单一、文字种类也为非单一的证件时(例如,毕业证、学位证等)存在着挑战。由于上述驾驶证、行驶证、护照、车牌、银行卡号、名片、文档等证件上文字种类单一,而且文字顺序单一。然而,毕业证、学位证等上的文字书写阅读顺序并非全是横行排列,从左往右书写阅读的。成熟的OCR技术可以将图片上的文字分成单个的文字,但是现有的证件识别技术并不能分辨出文字的排列顺序,没有正确的文字排列顺序,利用OCR技术得到的文字是没有用的信息,也不能将其直接录入电脑管理系统进行管理。
针对上述相关技术中在进行图像文字识别时无法得到文字区域的排版方向的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文字区域排版方向的确定方法及装置,以至少解决相关技术中在进行图像文字识别时无法得到文字区域的排版方向的技术问题。
根据本发明实施例的一个方面,提供了一种文字区域排版方向的确定方法,包括:识别文字区域的所有文字;将所述所有文字中的每个文字作为神经网络语言模型的输入,得到所述每个文字的特征参数,其中,所述特征参数包括:所述每个文字的相对相邻文字以及该相对相邻文字的出现概率,所述神经网络语言模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:文字和该文字的特征参数;根据所述特征参数确定所述所有文字中每个文字的排版方向;基于所述每个文字的排版方向确定所述文字区域的排版方向。
可选地,在将所述所有文字中的每个文字作为神经网络语言模型的输入,得到所述每个文字的特征参数之前,该文字区域排版方向的确定方法还包括:采集在历史时间段的多个历史文字和该多个历史文字的特征参数,其中,所述多个历史文字的特征参数是根据所述多个历史文字确定的;对采集的包括所述多个历史文字和该多个历史文字的特征参数进行训练,得到所述神经网络语言模型。
可选地,在根据所述特征参数确定所述所有文字中每个文字的排版方向之前,该文字区域排版方向的确定方法还包括:确定所述所有文字中每个文字的实际相邻文字,其中,所述实际相邻文字为所述文字区域的文字。
可选地,根据所述特征参数确定所述所有文字中每个文字的排版方向包括:依次将每个文字的实际相邻文字与所述每个文字的特征参数进行匹配;在匹配结果为特征参数中存在与所述实际相邻文字相同的相对相邻文字的情况下,将所述相对相邻文字的出现概率作为所述实际相邻文字的出现概率;将所述所有文字中每个文字的实际相邻文字中出现概率最高的实际相邻文字所指向的方向作为所述所有文字中每个文字的排版方向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811437303.4/2.html,转载请声明来源钻瓜专利网。