[发明专利]一种文本纠错的方法、装置、电子设备及存储介质在审
申请号: | 202110711749.7 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113343678A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 詹明捷;梁鼎 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/211;G06F40/284;G06K9/20;G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 北京中知恒瑞知识产权代理事务所(普通合伙) 11889 | 代理人: | 吴迪 |
地址: | 100080 北京市海淀区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 纠错 方法 装置 电子设备 存储 介质 | ||
1.一种文本纠错的方法,其特征在于,所述方法包括:
获取待纠错文本内容;
基于训练的文本纠错网络对所述待纠错文本内容进行包括字音维度以及字形维度在内的多维度文本纠错,得到纠错后的文本内容;
其中,所述文本纠错网络为基于生成的错误语句样本训练得到的,所述错误语句样本为基于预设的字音相似字符和字形相似字符对正确语句样本进行破坏得到的。
2.根据权利要求1所述的方法,其特征在于,按照如下步骤训练所述文本纠错网络:
获取正确语句样本以及对所述正确语句样本进行文本破坏得到的错误语句样本;所述错误语句样本与所述正确语句样本之间至少存在一个不同的字符;
将所述错误语句样本作为待训练的文本纠错网络的输入数据,得到输出结果,并将所述错误语句样本对应的正确语句样本作为所述错误语句样本的标签,对所述待训练的文本纠错网络进行至少一轮训练,得到训练好的文本纠错网络。
3.根据权利要求1或2所述的方法,其特征在于,按照如下步骤获取所述错误语句样本:
获取预设的候选字符表;所述候选字符表包括有多个候选字符、以及与每个所述候选字符对应的字音相似字符和字形相似字符;
基于获取的所述候选字符表对所述正确语句样本进行文本破坏,得到所述错误语句样本。
4.根据权利要求3所述的方法,其特征在于,所述基于获取的所述候选字符表对所述正确语句样本进行文本破坏,得到所述错误语句样本,包括:
对所述正确语句样本进行切分处理,得到多个分词;
针对所述多个分词中的第一分词,从所述候选字符表中查找与所述第一分词匹配的候选字符,并利用查找到的所述候选字符对应的字音相似字符或字形相似字符对所述第一分词进行替换,得到替换结果;
基于所述替换结果,确定针对所述正确语句样本进行文本破坏得到的所述错误语句样本。
5.根据权利要求1-4任一所述的方法,其特征在于,所述获取待纠错文本内容,包括:
接收客户端上传的待核验内容,所述待核验内容的类型包括文本和图像中的至少一项,所述待核验内容包括待纠错文本内容。
6.根据权利要求5所述的方法,其特征在于,
在所述待核验内容包括文本的情况下,所述待纠错文本内容包括所述文本中的字符或字符串;和/或,
在所述待核验内容包括图像的情况下,所述待纠错文本内容包括利用文字识别方式从所述图像中识别出的文本中的字符或字符串。
7.根据权利要求5或6所述的方法,其特征在于,在所述得到纠错后的文本内容之后,所述方法还包括:
向所述客户端返回纠错提示信息;所述纠错提示信息用于指示所述待核验内容中所述待纠错文本内容对应的待纠错位置。
8.根据权利要求7所述的方法,其特征在于,所述纠错提示信息还用于提供与所述待纠错文本内容中错误文本内容对应的参考文本内容,所述方法还包括:
响应针对所述待纠错位置的触发指令,展示纠错后的参考文本内容。
9.根据权利要求8所述的方法,其特征在于,所述展示纠错后的参考文本内容,包括:
在所述待纠错位置对应的纠错后位置处,以预设显示特效展示所述纠错后的参考文本内容;
或者,利用所述纠错后的参考文本内容替换所述待纠错文本内容,并在所述待纠错位置处展示所述纠错后的参考文本内容;
或者,分屏展示所述待纠错文本内容和所述纠错后的参考文本内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110711749.7/1.html,转载请声明来源钻瓜专利网。