[发明专利]文本纠错方法、装置、电子设备及计算机可读存储介质在审
申请号: | 202010326324.X | 申请日: | 2020-04-23 |
公开(公告)号: | CN111626118A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 谢静文;阮晓雯;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06N3/04;G06N3/08;G06F40/279;G06F16/903 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种文本纠错方法,其特征在于,所述方法包括:
获取原始文本图像,将所述原始文本图像进行预处理操作,得到标准图像;
利用预先训练完成的文本识别模型对所述标准图像进行文本识别,得到字/词向量,并对所述字/词向量编码,生成键值和对应的结果值,根据所述键值和对应的结果值,将所述标准图像转换为输出文本;
利用所述键值计算所述输出文本与预设的标准纠错表的编辑距离,根据所述编辑距离得到所述输出文本中的错误文本及所述错误文本对应的正确文本;
利用所述正确文本替换所述错误文本,得到标准输出文本。
2.如权利要求1所述的文本纠错方法,其特征在于,所述将所述原始文本图像进行预处理操作,得到标准图像,包括:
将所述原始文本图像的图像信号进行放大处理,得到放大图像信号;
对所述放大图像信号进行采样,得到采样信号;
将所述采样信号进行滤波处理,得到所述标准图像。
3.如权利要求1所述的文本纠错方法,其特征在于,所述文本识别模型包括:
字/词向量层,用于将所述标准图像包含的文本中的单词和字符进行转化,获得字/词向量;
Bi-LSTM层,用于将所述字/词向量进行分割,对分割后的所述字/词向量进行编码,得到所述字/词向量的编码表征,利用所述编码表征对所述字/词向量进行标注,得到键值和结果值;
CRF层,用于将相同类型的键值和结果值进行拼接,将拼接完成的文本按照编码的逆过程进行解码,生成所述输出文本。
4.如权利要求3所述的文本纠错方法,其特征在于,所述计算所述输出文本与预设的标准纠错表的编辑距离,包括:
利用如下编辑距离算法计算所述编辑距离:
Simtopic=Pearson(R,S)
其中,R为所述输出文本的键值,S为标准纠错表的键值,Pearson为编辑距离运算,Simtopic为键值之间的编辑距离。
5.如权利要求4所述的文本纠错方法,其特征在于,所述根据所述编辑距离得到所述输出文本中的错误文本及所述错误文本对应的正确文本,包括:
将输出文本的键值与标准纠错表的键值之间的编辑距离与预设的距离阈值进行对比;
在所述编辑距离小于所述距离阈值时,对应的输出文本的键值判定为错误字符以及对应的标准纠错表的键值判定为对应的正确字符;
汇集所有错误字符得到所述输出文本中的错误文本,以及汇集所述正确字符得到所述错误文本对应的正确文本。
6.一种文本纠错装置,其特征在于,所述装置包括:
调制转化模块,用于获取原始文本图像,将所述原始文本图像进行预处理操作,得到标准图像;
文本分割模块,用于利用预先训练完成的文本识别模型对所述标准图像进行文本识别,得到字/词向量,并对所述字/词向量编码,生成键值和对应的结果值,根据所述键值和对应的结果值,将所述标准图像转换为输出文本;
距离计算模块,用于利用所述键值计算所述输出文本与预设的标准纠错表的编辑距离,根据所述编辑距离得到所述输出文本中的错误文本及所述错误文本对应的正确文本;
纠错输出模块,用于利用所述正确文本替换所述错误文本,得到标准输出文本。
7.如权利要求6所述的文本纠错装置,其特征在于,所述文本识别模型包括:
字/词向量层,用于将所述标准图像包含的文本中的单词和字符进行转化,获得字/词向量;
Bi-LSTM层,用于将所述字/词向量进行分割,对分割后的所述字/词向量进行编码,得到所述字/词向量的编码表征,利用所述编码表征对所述字/词向量进行标注,得到键值和结果值;
CRF层,用于将相同类型的键值和结果值进行拼接,将拼接完成的文本按照编码的逆过程进行解码,生成所述输出文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010326324.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效清洁液
- 下一篇:一种生物可降解的血管支架材料的制备方法