[发明专利]一种文本纠错的方法和装置在审
申请号: | 202110279919.9 | 申请日: | 2021-03-16 |
公开(公告)号: | CN113051894A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 王培英;陈蒙 | 申请(专利权)人: | 京东数字科技控股股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 杨倩;张效荣 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 纠错 方法 装置 | ||
1.一种文本纠错的方法,其特征在于,包括:
获取待纠错文本,并为所述待纠错文本生成字符拼音;
在预设的领域知识库中,为所述待纠错文本检索领域词条;
将所述待纠错文本、所述字符拼音以及所述领域词条输入文本纠错模型,其中,所述文本纠错模型由训练样本训练得到,所述训练样本包括错误文本以及所述错误文本对应的正确文本,为所述文本纠错模型输入的训练信息包括:所述错误文本、所述错误文本的字符拼音以及所述错误文本的领域词条;
利用所述文本纠错模型,对所述待纠错文本进行纠错,并输出纠错后的正确文本。
2.根据权利要求1所述的方法,其特征在于,为所述待纠错文本匹配领域词条,包括:
将所述待纠错文本划分为多个预设长度的字符片段;
根据所述字符片段对应的字符拼音,在预设的领域知识库中,为所述字符片段检索领域词条。
3.根据权利要求1所述的方法,其特征在于,进一步包括:
分别将所述待纠错文本、所述字符拼音以及所述领域词条转换为对应的向量表示;
对所述待纠错文本进行纠错,包括:
将所述待纠错文本的向量表示、所述字符拼音的向量表示以及所述领域词条的向量表示输入所述文本纠错模型;
所述文本纠错模型基于所述待纠错文本的向量表示、所述字符拼音的向量表示以及所述领域词条的向量,计算字符的输出概率分布;
根据所述字符的输出概率分布,确定所述正确文本包括的字符。
4.根据权利要求3所述的方法,其特征在于,计算所述字符的输出概率分布,包括:
利用所述编码器分别对所述待纠错文本的向量表示、所述字符拼音的向量表示以及所述领域词条的向量表示进行编码;
将编码的结果输入所述文本纠错模型包括的解码器;
所述解码器根据编码的结果,计算所述字符的输出概率分布。
5.根据权利要求4所述的方法,其特征在于,利用所述编码器分别对所述待纠错文本的向量表示、所述字符拼音的向量表示以及所述领域词条的向量表示进行编码,包括:
将所述领域词条的向量表示融入所述待纠错文本的向量表示和所述字符拼音的向量表示;
对融入后的结果进行编码。
6.根据权利要求4所述的方法,其特征在于,进一步包括:
确定所述待纠错文本中的每一个所述字符的混淆集合,其中,所述混淆集合中包括多个近似字符;
基于所述混淆集合,所述解码器执行计算所述字符的输出概率分布的步骤。
7.根据权利要求6所述的方法,其特征在于,计算所述字符的输出概率分布,包括:
基于所述待纠错文本以及为所述待纠错文本检索出的领域词条,计算所述待纠错文本包括的每一个字符的复制概率;
基于每一个所述字符对应的混淆集合,计算词表包括的字符的生成概率;
根据所述词表中包括的所述字符的生成概率和所述待纠错文本包括的每一个所述字符的复制概率,计算每一个所述字符的输出概率。
8.根据权利要求7所述的方法,其特征在于,进一步包括:
根据每一个所述字符对应的混淆集合,为所述待纠错文本构建混淆集指示矩阵;
通过所述混淆集指示矩阵,将生成模式下的输出范围限制在所述混淆集合内,执行计算词表包括的每一个所述字符的生成概率的步骤。
9.根据权利要求6所述的方法,其特征在于,进一步包括:
利用每个所述训练样本的输出概率,构建损失函数;
通过最小化所述损失函数的值,训练模型参数,以得到所述文本纠错模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股股份有限公司,未经京东数字科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110279919.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自带涂层标签膜及其制备方法
- 下一篇:一种非索替尼晶型及其制备方法