[发明专利]一种文本纠错的方法和装置在审
申请号: | 202110279919.9 | 申请日: | 2021-03-16 |
公开(公告)号: | CN113051894A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 王培英;陈蒙 | 申请(专利权)人: | 京东数字科技控股股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/289 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 杨倩;张效荣 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 纠错 方法 装置 | ||
本发明公开了文本纠错的方法和装置,涉及计算机技术领域。该方法的具体实施方式包括:获取待纠错文本,并为待纠错文本生成字符拼音;在预设的领域知识库中,为待纠错文本检索领域词条;将待纠错文本、字符拼音以及领域词条输入文本纠错模型,其中,文本纠错模型由训练样本训练得到,训练样本包括错误文本以及对应的正确文本,为文本纠错模型输入的训练信息包括:错误文本、错误文本的字符拼音以及错误文本的领域词条;利用文本纠错模型,对待纠错文本进行纠错。该实施方式能够提高文本纠错的准确性以及效率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本纠错的方法和装置。
背景技术
在很多应用场景比如检索、文本转换、意图识别、智能客服等,均涉及对文本纠错(即对文本中的错误进行修正的过程),以下游处理过程能够准确地对文本进行词法分析、意图识别等,因此从自然语言处理整体技术角度来说,文本纠错起着保驾护航的作用。
目前,文本纠错一般依赖于人工构建的错别字词典进行错误匹配和纠正。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
由于错别字典的限制,对于一些比较稀有的专有名词等可能未被收录到错别字典,导致文本纠错的准确性以及效率较低。
发明内容
有鉴于此,本发明实施例提供一种文本纠错的方法和装置,能够有效地提高文本纠错的准确性以及效率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种文本纠错的方法,包括:
获取待纠错文本,并为所述待纠错文本生成字符拼音;
在预设的领域知识库中,为所述待纠错文本检索领域词条;
将所述待纠错文本、所述字符拼音以及所述领域词条输入文本纠错模型,其中,所述文本纠错模型由训练样本训练得到,所述训练样本包括错误文本以及所述错误文本对应的正确文本,为所述文本纠错模型输入的训练信息包括:所述错误文本、所述错误文本的字符拼音以及所述错误文本的领域词条;
利用所述文本纠错模型,对所述待纠错文本进行纠错,并输出纠错后的正确文本。
优选地,为所述待纠错文本匹配领域词条,包括:
将所述待纠错文本划分为多个预设长度的字符片段;
根据所述字符片段对应的字符拼音,在预设的领域知识库中,为所述字符片段检索领域词条。
优选地,上述文本纠错的方法,进一步包括:
分别将所述待纠错文本、所述字符拼音以及所述领域词条转换为对应的向量表示;
对所述待纠错文本进行纠错,包括:
将所述待纠错文本的向量表示、所述字符拼音的向量表示以及所述领域词条的向量表示输入所述文本纠错模型;
所述文本纠错模型基于所述待纠错文本的向量表示、所述字符拼音的向量表示以及所述领域词条的向量,计算字符的输出概率分布;
根据所述字符的输出概率分布,确定所述正确文本包括的字符。
优选地,计算所述字符的输出概率分布,包括:
利用所述编码器分别对所述待纠错文本的向量表示、所述字符拼音的向量表示以及所述领域词条的向量表示进行编码;
将编码的结果输入所述文本纠错模型包括的解码器;
所述解码器根据编码的结果,计算所述字符的输出概率分布的步骤。
优选地,利用所述编码器分别对所述待纠错文本的向量表示、所述字符拼音的向量表示以及所述领域词条的向量表示进行编码,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数字科技控股股份有限公司,未经京东数字科技控股股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110279919.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自带涂层标签膜及其制备方法
- 下一篇:一种非索替尼晶型及其制备方法