[发明专利]中文文本纠错方法、装置、电子设备及存储介质在审
申请号: | 202110859246.4 | 申请日: | 2021-07-28 |
公开(公告)号: | CN113642316A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 杨修远 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06N3/04;G06N3/08 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 严林;刘丽华 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 文本 纠错 方法 装置 电子设备 存储 介质 | ||
1.一种中文文本纠错方法,其特征在于,所述方法包括:
获取原始样本,并基于模糊拼音对所述原始样本进行处理,得到错误样本;
根据所述原始样本及对应的所述错误样本构建样本对,以语句为切分单位对所述样本对进行切分,并以声母、韵母、音调为基本单位进行拼音转换得到拼音序列对;
调用预先训练的第一BERT模型提取所述拼音序列对的拼音向量,及调用预先训练的第二BERT模型提取所述样本对的文本向量;
以所述拼音向量及对应的所述文本向量作为训练数据,基于所述训练数据训练端到端的中文文本纠错模型;
通过所述中文文本纠错模型对待纠错文本进行纠错处理,得到纠错后的文本。
2.如权利要求1所述的中文文本纠错方法,其特征在于,当所述原始样本为中文文本时,所述基于模糊拼音对所述原始样本进行处理,得到错误样本包括:
获取所述原始样本的字符数;
根据所述字符数确定命中概率;
以所述命中概率命中所述原始样本中的目标位置;
根据多个预设字典替换所述原始样本中所述目标位置处的字符,得到替换样本;
对多个所述替换样本进行去重处理,得到错误样本。
3.如权利要求2所述的中文文本纠错方法,其特征在于,所述根据多个预设字典替换所述原始样本中所述目标位置处的字符,得到替换样本包括:
获取所述原始样本中所述目标位置处的字符的原始拼音及原始音调;
从预设的同音同音调字典中获取与所述原始拼音及所述原始音调均相同的第一字符,并将所述目标位置处的字符替换为所述第一字符,得到第一替换样本;
从预设的同音不同音调字典中获取与所述原始拼音相同,但与所述原始音调不同的第二字符,并将所述目标位置处的字符替换为所述第二字符,得到第二替换样本;
将所述原始拼音放入预设的混淆音字典中进行检索,获取所述原始拼音的近音词以及所述近音词对应的第三字符,并将所述目标位置处的字符替换为所述第三字符,得到第三替换样本;
从预设的拼音编辑距离字典中获取与所述原始拼音的编辑距离最小的目标拼音及所述目标拼音对应的第四字符,并将所述目标位置处的字符替换为所述第四字符,得到第四替换样本。
4.如权利要求1所述的中文文本纠错方法,其特征在于,当所述原始样本为语音片段时,所述基于模糊拼音对所述原始样本进行处理,得到错误样本包括:
获取所述语音片段对应的正确文本;
调用训练完成的噪声生成模型对所述正确文本进行加噪处理,得到多个加噪声的文本以及每个加噪声的文本的置信度;
根据所述置信度,从所述多个加噪声的文本中选择一个或多个目标加噪声的文本;
将所述一个或多个目标加噪声的文本作为所述错误样本。
5.如权利要求1至4中任意一项所述的中文文本纠错方法,其特征在于,所述以语句为切分单位对所述样本对进行切分并以声母、韵母、音调为基本单位进行拼音转换得到拼音序列对包括:
以语句为切分单位对所述原始样本进行切分得到多个第一切片样本,及对所述原始样本对应的所述错误样本进行切分得到多个第二切片样本;
调用预设工具包获取每个所述第一切片样本的第一拼音,及获取每个所述第二切片样本的第二拼音;
以声母、韵母、音调为基本单位对每个所述第一拼音进行转换得到第一拼音序列,及对每个所述第二拼音进行转换得到第二拼音序列;
根据多个所述第一拼音序列及多个所述第二拼音序列得到拼音序列对。
6.如权利要求5所述的中文文本纠错方法,其特征在于,在所述调用预设工具包获取每个所述第一切片样本的第一拼音,及获取每个所述第二切片样本的第二拼音之后,所述方法还包括:
判断所述第一拼音是否包含有声母及所述第二拼音是否包含有声母;
当所述第一拼音不包含有声母时,将预设字符作为所述第一拼音的声母,并以声母、韵母、音调为基本单位对所述第一拼音进行转换;
当所述第二拼音不包含有声母时,将所述预设字符作为所述第二拼音的声母,并以声母、韵母、音调为基本单位对所述第二拼音进行转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110859246.4/1.html,转载请声明来源钻瓜专利网。