[发明专利]文本纠错方法和系统在审
申请号: | 202211088506.3 | 申请日: | 2022-09-07 |
公开(公告)号: | CN115422929A | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 孙清清;张天翼;邹泊滔;汤深;赖伟达;钱涛;王爱凌 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 钱孟清 |
地址: | 310023 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 系统 | ||
1.一种文本纠错方法,包括:
接收待纠错文本;
使用多种分词方法将所述待纠错文本切分成多种粒度的子词序列;
对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;
融合各种粒度的候选纠错文本以确定目标纠错文本;以及
输出所确定的目标纠错文本。
2.根据权利要求1所述的方法,所述待纠错文本是多语言文本或单语言文本。
3.根据权利要求1所述的方法,对每种粒度的子词序列进行纠错进一步包括:通过纠错模型对每种粒度的子词序列进行纠错,其中所述纠错模型用不同语言的训练数据融合训练。
4.根据权利要求3所述的方法,所述训练是通过生成对抗网络来实现的。
5.根据权利要求1所述的方法,所述多种分词方法包括以下一者或多者:BIE分词方法、BPE分词方法、字符级分词方法。
6.根据权利要求1所述的方法,所述纠错包括纠正以下一种或多种错误:拼写错误、语法错误、逻辑错误。
7.根据权利要求1所述的方法,融合各种粒度的候选纠错文本以确定目标纠错文本进一步包括:
对各种粒度的候选纠错文本进行Softmax函数处理以确定最优的候选纠错文本作为所述目标纠错文本。
8.一种文本纠错系统,包括:
接收模块,接收待纠错文本;
分词模块,使用多种分词方法将所述待纠错文本切分成多种粒度的子词序列;
候选纠错文本模块,对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;
目标纠错文本模块,融合各种粒度的候选纠错文本以确定目标纠错文本;以及
输出模块,输出所确定的目标纠错文本。
9.根据权利要求8所述的系统,所述待纠错文本是多语言文本或单语言文本。
10.根据权利要求8所述的系统,所述候选纠错文本模块还被配置成:通过纠错模型对每种粒度的子词序列进行纠错,其中所述纠错模型用不同语言的训练数据融合训练。
11.根据权利要求10所述的系统,所述训练是通过生成对抗网络来实现的。
12.根据权利要求8所述的系统,所述多种分词方法包括以下一者或多者:BIE分词方法、BPE分词方法、字符级分词方法。
13.根据权利要求8所述的系统,所述纠错包括纠正以下一种或多种错误:拼写错误、语法错误、逻辑错误。
14.根据权利要求8所述的系统,所述目标纠错文本模块还被配置成:
对各种粒度的候选纠错文本进行Softmax函数处理以确定最优的候选纠错文本作为所述目标纠错文本。
15.一种计算机可读存储介质,其存储计算机程序,所述计算机程序能被处理器执行以执行如权利要求1-7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211088506.3/1.html,转载请声明来源钻瓜专利网。