[发明专利]识别文档中的键值对在审
申请号: | 202080016688.6 | 申请日: | 2020-02-26 |
公开(公告)号: | CN114072857A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 徐洋;王江;戴声扬 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/414;G06V10/82;G06Q30/04;G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 邓聪惠;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 文档 中的 键值 | ||
用于将非结构化文档转换为结构化键值对的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括:向检测模型提供文档的图像,其中:检测模型被配置成处理图像以生成定义为图像生成的一个或多个边界框的输出;以及,为图像生成的每个边界框被预测成包围包括键文本数据和值文本数据的键值对,其中键文本数据定义表征值文本数据的标签;并且对于为图像生成的一个或多个边界框中的每个:使用光学字符辨别技术识别由边界框包围的文本数据;以及,确定由边界框包围的文本数据是否定义键值对。
技术领域
本说明书涉及文档处理。
背景技术
理解文档(例如,发票、支付存根、采购收据等)是许多现代企业的重要业务需要。企业数据的大部分(例如,90%或更多)被以非结构化文档的形式存储和表示。从文档中人工地提取结构化数据可能是昂贵的、费时的且易出错的。
发明内容
本说明书通常描述被作为计算机程序实现在一个或多个位置中的一个或多个计算机上的一种解析系统和一种解析方法,该解析系统和该解析方法将非结构化文档自动地转换为结构化键值对。更具体地,该解析系统被配置成处理文档以识别文档中的“键”文本数据和对应的“值”文本数据。广义上,键定义表征(即,描述)对应的值的标签。例如,键“Date(日期)”可以对应于值“2-23-2019”。
根据第一方面,提供了一种由一个或多个数据处理装置执行的方法,该方法包括:向检测模型提供文档的图像,其中:检测模型被配置成根据多个检测模型参数的值来处理图像以生成定义为图像生成的一个或多个边界框的输出;并且为图像生成的每个边界框被预测成包围包括键文本数据和值文本数据的键值对,其中,键文本数据定义表征值文本数据的标签;以及对于为图像生成的一个或多个边界框中的每个:使用光学字符辨识技术来识别由边界框包围的文本数据;确定由边界框包围的文本数据是否定义键值对;以及响应于确定由边界框包围的文本数据定义键值对,提供该键值对以用于在表征文档时使用。
在一些实现方式中,检测模型是神经网络模型。
在一些实现方式中,神经网络模型包括卷积神经网络。
在一些实现方式中,在训练示例集合上训练神经网络模型,每个训练示例包括训练输入和目标输出,训练输入包括训练文档的训练图像,且目标输出包括定义训练图像中各自包围相应的键值对的一个或多个边界框的数据。
在一些实现方式中,文档是发票。
在一些实现方式中,向检测模型提供文档的图像包括:识别文档的特定类别;以及将文档的图像提供给检测模型,该检测模型被训练来处理特定类别的文档。
在一些实现方式中,确定由边界框包围的文本数据是否定义键值对包括:确定由边界框包围的文本数据包括来自预定有效键集合的键;识别不包括键的由边界框包围的文本数据的一部分的类型;识别与键相对应的值的一种或多种有效类型的集合;以及确定不包括键的由边界框包围的文本数据的部分的类型被包括在与键相对应的值的一种或多种有效类型的集合中。
在一些实现方式中,识别与键相对应的值的一种或多种有效类型的集合包括:使用预定映射来将键映射到与键相对应的值的一种或多种有效类型的集合。
在一些实现方式中,有效键集合和从键到与键相对应的值的有效类型的对应集合的映射由用户提供。
在一些实现方式中,边界框具有矩形形状。
在一些实现方式中,该方法还包括:从用户接收文档;以及将文档转换为图像,其中,图像描绘文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080016688.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数字内容的上下文层
- 下一篇:模具、成型系统以及模具制造方法