[发明专利]文本纠错方法、装置、电子设备及存储介质有效
申请号: | 202011445288.5 | 申请日: | 2020-12-08 |
公开(公告)号: | CN112541342B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 张睿卿;张传强;何中军;李芝;吴华 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/253;G06F40/216 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种文本纠错方法、装置、电子设备及存储介质,涉及自然语言处理和深度学习等人工智能技术领域。具体实现方案为:获取当前语句以及所述当前语句在所属文章中的历史语句;基于所述当前语句和所述历史语句,对所述当前语句进行文本纠错处理。本申请的技术方案,能够基于当前语句在文章的历史语句即上文信息,对当前语句进行文本纠错,使得纠错信息更丰富,纠错结果更准确。
技术领域
本申请涉及计算机技术领域,尤其涉及自然语言处理和深度学习等人工智能技术领域,具体涉及一种文本纠错方法、装置、电子设备及存储介质。
背景技术
自然语言处理(Natural Language Processing;NLP)是计算机科学领域与人工智能领域中的一个重要方向。
文本纠错是NLP中的一个基础问题,通常可以前置于其他NLP任务如文本检索、文本分类、机器翻译或者序列标注,以提升输入文本的有效性,防止拼写错误带来的不良影响。现有主流的文本纠错原理为将一段文本以句子为粒度进行切分。对于切分后的每一句话,采用级联式方法进行纠错。如先进行错误检测,即检测该句话中哪些字是错误的;然后生成错误的候选;即对于每个检测出来的错字,生成可能正确的候选字;最后进行候选筛选,即对于生成的每个候选字中,筛选出来最终的正确字。
发明内容
本申请提供了一种文本纠错方法、装置、电子设备及存储介质。
根据第一方面,提供了一种文本纠错方法,其中,所述方法包括:
获取当前语句以及所述当前语句在所属文章中的历史语句;
基于所述当前语句和所述历史语句,对所述当前语句进行文本纠错处理。
根据第二方面,提供了一种文本纠错装置,其中,所述装置包括:
获取模块,用于获取当前语句以及所述当前语句在所属文章中的历史语句;
纠错模块,用于基于所述当前语句和所述历史语句,对所述当前语句进行文本纠错处理。
根据第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方法。
根据第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
根据本申请的技术,能够基于当前语句在文章的历史语句即上文信息,对当前语句进行文本纠错,使得纠错信息更丰富,纠错结果更准确。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是根据本申请第三实施例的示意图;
图4是本申请的文本纠错方法中的编码原理示意图;
图5是根据本申请第四实施例的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011445288.5/2.html,转载请声明来源钻瓜专利网。