[发明专利]文本纠错方法、装置、电子设备和存储介质在审
申请号: | 202011442447.6 | 申请日: | 2020-12-11 |
公开(公告)号: | CN112232062A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 张睿卿;张传强;何中军;李芝;吴华 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 韩海花 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 电子设备 存储 介质 | ||
1.一种文本纠错方法,包括:
获取待纠错文本;
获取所述待纠错文本的拼音序列;以及
将所述待纠错文本和所述拼音序列输入至文本纠错模型,以得到纠错后的已纠错文本。
2.根据权利要求1所述的文本纠错方法,其中,所述将所述待纠错文本和所述拼音序列输入至文本纠错模型,以得到纠错后的已纠错文本,包括:
将所述待纠错文本和所述拼音序列输入至所述文本纠错模型,其中,所述文本纠错模型通过以下步骤生成所述已纠错文本:
所述文本纠错模型检测所述待纠错文本中的错字,以确定所述待纠错文本中的错字;
所述文本纠错模型获取所述错字所对应的所述拼音序列之中的拼音,并将所述错字替换为所述拼音,以得到拼音待纠错文本;以及
所述文本纠错模型对所述拼音待纠错文本进行纠错,以得到所述已纠错文本。
3.根据权利要求2所述的文本纠错方法,其中,通过以下公式获取所述拼音待纠错文本:
Xwp=Ww*Odet+Xp*(1-Odet),
其中,所述Xwp为所述拼音待纠错文本,所述Ww为所述待纠错文本,所述Xp为所述拼音序列,所述Odet为所述待纠错文本的检错标注序列,所述检错标注序列与所述待纠错文本一一对应。
4.根据权利要求1所述的文本纠错方法,其中,所述文本纠错模型通过以下方式训练得到:
获取样本文本和所述样本文本所对应的样本拼音序列;
获取所述样本文本的目标文本;
将所述样本文本和所述样本拼音序列输入所述文本纠错模型,以生成预测的样本纠正文本;以及
根据所述预测的纠正文本和所述目标文本生成损失值,并根据所述损失值对所述文本纠错模型进行训练。
5.根据权利要求1所述的文本纠错方法,其中,所述文本纠错模型通过以下方式训练得到:
获取样本文本和所述样本文本所对应的样本拼音序列;
获取所述样本文本的目标拼音文本和目标文本;
将所述样本文本和所述样本拼音序列输入所述文本纠错模型,以生成预测的样本拼音文本和预测的样本纠正文本;
根据所述预测的样本拼音文本和所述目标拼音文本生成第一损失值,并根据所述预测的样本纠正文本和所述目标文本生成第二损失值;以及
根据所述第一损失值和所述第二损失值对所述文本纠错模型进行训练。
6.根据权利要求4或5所述的文本纠错方法,其中,所述样本文本包括掩码样本文本、易混淆字样本文本和易混淆字的拼音样本文本中的一种或多种。
7.一种文本纠错装置,包括:
第一获取模块,用于获取待纠错文本;
第二获取模块,用于获取所述待纠错文本的拼音序列;以及
纠错模块,用于将所述待纠错文本和所述拼音序列输入至文本纠错模型,以得到纠错后的已纠错文本。
8.根据权利要求7所述的文本纠错装置,其中,所述纠错模块,用于:
将所述待纠错文本和所述拼音序列输入至所述文本纠错模型,其中,所述文本纠错模型通过以下步骤生成所述已纠错文本:
所述文本纠错模型检测所述待纠错文本中的错字,以确定所述待纠错文本中的错字;
所述文本纠错模型获取所述错字所对应的所述拼音序列之中的拼音,并将所述错字替换为所述拼音,以得到拼音待纠错文本;以及
所述文本纠错模型对所述拼音待纠错文本进行纠错,以得到所述已纠错文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011442447.6/1.html,转载请声明来源钻瓜专利网。