[发明专利]结构化图片自动转换为源代码的方法有效

申请号：	201810863511.4	申请日：	2018-08-01
公开（公告）号：	CN108921911B	公开（公告）日：	2021-03-09
发明（设计）人：	陈恩红;刘淇;阴钰;黄振亚	申请（专利权）人：	中国科学技术大学
主分类号：	G06T9/00	分类号：	G06T9/00
代理公司：	北京凯特来知识产权代理有限公司 11260	代理人：	郑立明;郑哲
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	结构图片自动转换源代码方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种结构化图片自动转换为源代码的方法，包括：获取结构化图片及源代码；使用基于深度残差网络的图像编码器，对结构化图片进行编码，从图像中提取特征向量；采用基于聚光灯机制的解码器结合提取的特征向量及相应的源代码，来计算语法符号的分布，并依照编码‑解码器模型建模源代码生成过程，进而实现图片到源代码的自动转换。该方法采用聚光灯机制建模注意力，能够更加集中地获取图像信息，对于图片内容的准确转写很有帮助；该自动转写方法引入聚光灯这一机制，弥补了现有方法缺乏对空间信息、结构信息的建模，以及注意力、输出混淆建模等弊端。

技术领域

本发明涉及图像识别技术领域，尤其涉及一种结构化图片自动转换为源代码的方法。

背景技术

图像识别，特别是结构化图片识别和转写，是许多任务的基础。在图像自动转写任务中，我们需要将获取的图像进行处理，提取高层图像特征，转换为其对应的文本形式，该文本形式应当能够表达图片的大部分或者全部信息。相关应用如文档扫描、自动阅卷、自动驾驶、智能机器人等，都需要高质量高准确度的图像识别和转写方法，日益增加的图片数量也增大了对自动化的方法的需求。

虽然许多研究已经能够在自然图像类型识别与标注、街道路牌等简单文本的识别与提取等任务中取得较好的效果，很多情况下，我们面对的图像内容更加复杂，具有更多的结构信息，我们称这类图片为结构化图片。典型的结构化图片包括公式图片、乐谱等。对于它们的转写，需要在识别出对象的基础上，同时保留其结构信息。因此，对于结构化图片的转写，我们需要在已有的转写方法基础上，设计新的方法和系统，以更好地转写图片中的结构信息。

传统的图像识别与转写方法，可以分为如下几类：

1)基于人工规则的转写方法。

传统的自动转写方法，很多基于预先设定的人工规则。常见的流程如：首先图像中抽取一些形状特征，然后根据人工规则对特征进行识别，最后根据一定的语法产生对应输出。此类方法在公式识别等问题上，已经获得了较好的效果。然而，这类方法有以下几个弊端：一、该方法需要大量的人力，设定特征抽取规则、识别规则、转写规则，专业性、成本都很高；二、人为的规则很难做到面面俱到，限制了基于规则方法的准确性；三、该方法只能针对设定好规则的图片类型进行识别，对于新的图片类型，需要重新设定规则。这些因素导致现有的基于规则的图片转写方案往往价格昂贵，很少有免费或价格低廉的解决方案，且效果并不十分令人满意。

2)基于编码-解码器的转写方法。

近年来人工智能发展迅速，人们也开始探索使用机器学习的方法解决传统任务，这也包括图像转文本的任务。对于该任务，一个经典的模型为编码-解码器模型。该模型为一输入图像、输出序列的通用框架，对于输入的图像，通过一个编码器结构进行特征提取和表示；之后通过一个解码器结构，解码图像信息的特征表示，逐个输出序列元素。类似的方法已经在机器翻译、语音识别等领域获得较好应用，在图像识别领域近来也得到广泛关注。但直接将编码-解码器用于图像转文本任务，有如下困难：一、经典的编码-解码器方法中，输入信息全部被编码到一个向量中，输出时容易产生信息损耗；二、对于输入的复杂结构，简单的编码器难以准确提取。基于此，人们提出基于注意力的编码-解码器方法。

3)基于注意力的编码-解码器。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810863511.4/2.html，转载请声明来源钻瓜专利网。

上一篇：基于可伸缩卷积神经网络的JPEG编码压缩图像复原的方法
下一篇：一种图像超像素生成系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T9-00 图像编码，如从位像到非位像
G06T9-20 .轮廓编码，如使用边缘检测
G06T9-40 .树编码，如正交树，八叉树

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]结构化图片自动转换为源代码的方法有效

专利文献下载