[发明专利]文本纠错方法和系统在审
申请号: | 202211088506.3 | 申请日: | 2022-09-07 |
公开(公告)号: | CN115422929A | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 孙清清;张天翼;邹泊滔;汤深;赖伟达;钱涛;王爱凌 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 钱孟清 |
地址: | 310023 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 系统 | ||
本公开提出了一种文本纠错方法和系统。该方法包括:接收待纠错文本;使用多种分词方法将待纠错文本切分成多种粒度的子词序列;对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;融合各种粒度的候选纠错文本以确定目标纠错文本;以及输出所确定的目标纠错文本。
技术领域
本公开涉及文本处理领域,具体涉及文本纠错方法和系统。
背景技术
文本纠错可应用于越来越多的场景。例如,在金融风险监控名单扫描产品中,识别客户信息或交易信息的错误拼写、或者客户有意修改基本信息如人名、地名、公司名等规避行为,能够提高金融风险监控名单扫描的准确性和风险覆盖率。另外,在搜索场景中,用户在输入搜索词时有可能出现错误,此时也需要进行文本纠错。
目前文本纠错面临的一个重要挑战是语言特点多样性问题。例如,印尼语与英语发音接近,用户在输入时倾向于按照发音输入,因此很容易将“pampers”错写为“pempes”。此外,越南语有的语音需要使用不同的字母来表示,如c/k/q和d/gi的存在、i和y的并存,拼写上显得有些混乱,容易导致文本错误。
目前的文本纠错方案大多数着重于单语种纠错,且存在各种缺陷。对于多语种纠错,现有技术尚没有合适的解决方案。
有鉴于此,期望提供一种针对多语种的改进的文本纠错方法和系统。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是以简化形式给出一个或多个方面的一些概念以作为稍后给出的更详细描述之序言。
本公开提出了一种文本纠错方法,包括:接收待纠错文本;使用多种分词方法将待纠错文本切分成多种粒度的子词序列;对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;融合各种粒度的候选纠错文本以确定目标纠错文本;以及输出所确定的目标纠错文本。
在本公开的一实施例中,待纠错文本是多语言文本或单语言文本。
在本公开的一实施例中,对每种粒度的子词序列进行纠错进一步包括:通过纠错模型对每种粒度的子词序列进行纠错,其中该纠错模型用不同语言的训练数据融合训练。
在本公开的一实施例中,训练是通过生成对抗网络来实现的。
在本公开的一实施例中,多种分词方法包括以下一者或多者:BIE分词方法、BPE分词方法、字符级分词方法。
在本公开的一实施例中,纠错包括纠正以下一种或多种错误:拼写错误、语法错误、逻辑错误。
在本公开的一实施例中,融合各种粒度的候选纠错文本以确定目标纠错文本进一步包括:对各种粒度的候选纠错文本进行Softmax函数处理以确定最优的候选纠错文本作为目标纠错文本。
本公开还提出了一种文本纠错系统,包括:接收模块,接收待纠错文本;分词模块,使用多种分词方法将待纠错文本切分成多种粒度的子词序列;候选纠错文本模块,对每种粒度的子词序列进行纠错以获得每种粒度的候选纠错文本;目标纠错文本模块,融合各种粒度的候选纠错文本以确定目标纠错文本;以及输出模块,输出所确定的目标纠错文本。
在本公开的一实施例中,待纠错文本是多语言文本或单语言文本。
在本公开的一实施例中,候选纠错文本模块还被配置成:通过纠错模型对每种粒度的子词序列进行纠错,其中该纠错模型用不同语言的训练数据融合训练。
在本公开的一实施例中,训练是通过生成对抗网络来实现的。
在本公开的一实施例中,多种分词方法包括以下一者或多者:BIE分词方法、BPE分词方法、字符级分词方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211088506.3/2.html,转载请声明来源钻瓜专利网。