[发明专利]文档识别方法、装置及设备在审
申请号: | 202010265465.5 | 申请日: | 2020-04-07 |
公开(公告)号: | CN111507214A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 杨猛;邵利铎;鹿慧;何栋;于灏;孟庆峰;刘松;刘皓;蔡雨佳;尹磊;张大鹏;肖潇;邸杰;王龙涛;张晓奇 | 申请(专利权)人: | 中国人民财产保险股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 朱文杰 |
地址: | 100022 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 识别 方法 装置 设备 | ||
1.一种文档识别方法,包括:
采集目标业务对应的综合文档图像,所述综合文档图像中的综合文档包含执行所述目标业务所需的至少一个独立文档;
对所述综合文档图像中包含的独立文档进行定位分割,以确定各所述独立文档在所述综合文档图像中的位置;
对各所述独立文档所在位置的图像进行文本识别,确定所述独立文档中所包含的文本内容。
2.根据权利要求1所述的方法,所述对所述综合文档图像中包含的独立文档进行定位分割包括:
对所述综合文档图像进行实例分割,得到以QuadBox四个点表示的所述独立文档在所述综合文档图像中的位置。
3.根据权利要求1所述的方法,所述对各所述独立文档所在位置的图像进行文本识别,确定所述独立文档中所包含的文本内容包括:
对所述独立文档所在位置的图像进行实例分割,划分出多个包含文本的文本框;
采用预先训练得到的行文本识别模型,对所述文本框中包含的文本进行行文本识别,确定所述文本框所包含的文本内容。
4.根据权利要求3所述的方法,所述对各所述独立文档所在位置的图像进行文本识别,确定所述独立文档中所包含的文本内容还包括:
对所述独立文档所在位置的图像进行实例分割,确定所述独立文档中文字方向;
根据所述独立文档中文字方向,对从相应所述独立文档中划分出的所述文本框的方向进行转正调整;
采用预先训练得到的行文本识别模型,对所述转正调整后的文本框中包含的文本进行行文本识别,确定所述文本框所包含的文本内容。
5.根据权利要求1所述的方法,所述确定各所述独立文档在所述综合文档图像中的位置之后还包括:
对各所述独立文档所在位置的图像进行分类识别,以确定相应独立文档对应的文档类别;
所述对各所述独立文档所在位置的图像进行文本识别,确定所述独立文档中所包含的文本内容包括:
采用预先训练得到的与待识别独立文档的文档类别相匹配的行文本识别模型,对所述待识别独立文档所在位置的图像进行文本识别,确定所述独立文档中所包含的文本内容。
6.根据权利要求5所述的方法,所述对各所述独立文档所在位置的图像进行分类识别,以确定相应独立文档对应的文档类别包括:
采用预先训练好的特征提取模型,提取所述独立文档所在位置的图像的文档图像特征;
将提取的所述文档图像特征与预先注册的各文档类别所包含的文档图像特征进行相似匹配,并根据相似匹配结果确定所述独立文档对应的文档类别。
7.根据权利要求5或6所述的方法,所述确定所述独立文档中所包含的文本内容之后还包括:
对所述独立文档的文本内容进行结构化处理,得到各所述独立文档对应的文档结构化信息。
8.根据权利要求7所述的方法,所述对所述独立文档的文本内容进行结构化处理,得到各所述独立文档对应的文档结构化信息包括:
选择与所述独立文档的文档类别相匹配的文档结构信息模板,对所述独立文档的文本内容进行结构化处理,得到各所述独立文档对应的文档结构化信息。
9.根据权利要求7所述的方法,所述得到各所述独立文档对应的文档结构化信息之后还包括:
将所述文档结构化信息转换成指定格式的数据后进行保存和/或输出。
10.根据权利要求1所述的方法,所述确定各所述独立文档在所述综合文档图像中的位置之后还包括:
对所述独立文档在所述综合文档图像中的位置进行透视变换,得到校正后的独立文档图像;
所述对各所述独立文档所在位置的图像进行文本识别,确定所述独立文档中所包含的文本内容包括:
对所述校正后的独立文档图像进行文本识别,确定所述独立文档中所包含的文本内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民财产保险股份有限公司,未经中国人民财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010265465.5/1.html,转载请声明来源钻瓜专利网。