[发明专利]一种医疗单据识别方法和装置在审

申请号：	201810271810.9	申请日：	2018-03-29
公开（公告）号：	CN110321760A	公开（公告）日：	2019-10-11
发明（设计）人：	沈燕妮;潘多志;王如章	申请（专利权）人：	北京和缓医疗科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/20;G06K9/34;G06T5/30;G06T7/13
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100007 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	医疗单据汉字识别标注块图像字符识别结果汉字字符识别图像准确率分词合并方法和装置单个字符分词结果结果获得字符块逐行切割申请保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种医疗单据识别方法，包括获取医疗单据图像，对医疗单据图像进行切割得到各个词块图像，根据各个词块图像所属类别，分别采用汉字识别模型和字符识别模型对汉字词块图像以及字符块图像进行识别，将汉字识别结果与字符识别结果逐行合并，对合并结果进行分词和标注，得到对应各分词结果的标注结果，可以根据标注结果获得识别结果。由于汉字识别模型可以对汉字进行针对性识别，字符识别模型可以对单个字符进行针对识别，如此可以保证医疗单据中汉字和字符的识别准确率，因而基于汉字识别结果和字符识别结果合并进行分词和标注，并根据标注结果所获得的识别结果也相应地具有较高的准确率。

技术领域

本申请涉及图像处理领域，尤其涉及一种医疗单据识别方法和装置。

背景技术

光学字符识别(Optical Character Recognition，OCR)是一种通过图像处理和模式识别对光学字符进行识别的技术，通过与图像输入设备如扫描仪等进行配合可以将图像信息转换为文本信息，从而实现文字自动录入。

目前，OCR技术发展日益成熟，已广泛应用于银行票据、车牌、名片、个人证件、报刊、档案等信息的识别。相比于传统的手工录入方式，OCR技术明显提高了人们对资料的存储和检索效率。

但是，OCR技术在医疗行业的应用还不够成熟，如对医疗单据等进行识别，还存在难以识别或识别不准确等问题。

发明内容

有鉴于此，本申请第一方面提供了一种医疗单据识别方法，所述方法包括：

获取医疗单据图像，对所述医疗单据图像按照词块进行切割得到各个词块图像；

对所述各个词块图像进行分类，得到所述各个词块图像的分类结果；

若所述词块图像的分类结果为汉字类型，则将所述词块图像输入预先训练的汉字识别模型，得到汉字识别结果；若词块图像的分类结果为字符类型，则将所述词块图像切割得到字符块图像，并将所述字符块图像输入到预先训练的字符识别模型，得到字符识别结果；

将所述汉字识别结果与所述字符识别结果逐行合并，对合并结果进行分词和标注，得到对应各分词结果的标注结果，根据所述标注结果获得所述医疗单据图像的识别结果。