[发明专利]文件修复方法及装置有效
申请号: | 201910967112.7 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110781664B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 张航 | 申请(专利权)人: | 抖音视界有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/126 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 徐雅琴 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 修复 方法 装置 | ||
本公开提出一种文件修复方法及装置,其中方法包括:通过获取文件中缺失字符编码的每个待修复字符,并根据所述每个待修复字符的字形参数确定所述每个待修复字符的向量化表示;在预先存储的各个标准字符的向量化表示中,查找与所述每个待修复字符的向量化表示相匹配的标准字符的向量化表示;获取与相匹配的标准字符的向量化表示对应的标准字符的目标字符编码,根据所述目标字符编码对所述每个待修复字符进行修复处理。由此,从而能够基于字形参数确定待修复字符的向量化表示,在获取到与每个待修复字符的向量化表示相匹配的标准字符的向量化表示之后,便可基于相匹配的标准字符的字符编码对待修复字符进行自动修复处理,提高修复处理效率和准确性。
技术领域
本公开涉及文件处理技术领域,尤其涉及一种文件修复方法及装置。
背景技术
在实际应用中,某些文件因文本信息被损坏或去除,无法对文本进行复制或搜索等操作。目前,普遍做法是基于光学字符识别(Optical Character Recognition,OCR)进行文件修复。但是OCR的输入是图片,不仅需要把文件转换为图片才能进行修复,而且识别准确率低,计算复杂度高。
发明内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本公开的第一个目的在于提出一种文件修复方法。
本公开的第二个目的在于提出一种文件修复装置。
本公开的第三个目的在于提出一种电子设备。
本公开的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本公开第一方面实施例提出了一种文件修复方法,包括:
获取文件中缺失字符编码的每个待修复字符,并根据所述每个待修复字符的字形参数确定所述每个待修复字符的向量化表示;
在预先存储的各个标准字符的向量化表示中,查找与所述每个待修复字符的向量化表示相匹配的标准字符的向量化表示;
获取与相匹配的标准字符的向量化表示对应的标准字符的目标字符编码,根据所述目标字符编码对所述每个待修复字符进行修复处理。
作为一种可能的实现方式,所述字形参数包括贝塞尔曲线参数,所述根据所述每个待修复字符的字形参数确定所述每个待修复字符的向量化表示包括:
根据每个待修复字符的贝塞尔曲线参数绘制对应的贝塞尔曲线;
采用至少一条直线段对所述塞尔曲线进行直线化处理,并确定每个直线段的几何信息;
对各个直线段的几何信息进行离散化处理,得到所述每个待修复字符的向量化表示。
作为一种可能的实现方式,所述几何信息包括长度和角度。
作为一种可能的实现方式,在所述获取文件中缺失字符编码的每个待修复字符之前,还包括:
确定至少一个标准字符,并根据每个标准字符的字形参数确定所述每个标准字符的向量化表示;
按照前缀树的形式存储各个标准字符的向量化表示。
作为一种可能的实现方式,在获取与相匹配的标准字符的向量化表示对应的标准字符的目标字符编码之前,还包括:
若查找到多个与所述每个待修复字符的向量化表示相匹配的标准字符的向量化表示,计算每个待修复字符的向量化表示分别与各个相匹配的标准字符的向量化表示之间的向量夹角;
根据向量夹角确定与所述每个待修复字符的向量化表示最匹配的标准字符的向量化表示;
所述获取与相匹配的标准字符的向量化表示对应的标准字符的目标字符编码包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于抖音视界有限公司,未经抖音视界有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910967112.7/2.html,转载请声明来源钻瓜专利网。