[发明专利]文本纠错方法、装置、设备及存储介质有效
申请号: | 202010939914.X | 申请日: | 2020-09-09 |
公开(公告)号: | CN112016305B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 付桂振 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/226 | 分类号: | G06F40/226;G06F16/33 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 纠错 方法 装置 设备 存储 介质 | ||
本申请实施例公开了一种文本纠错方法、装置、设备及存储介质,应用于数字医疗领域,包括:获取初始文本信息的文本特征,并根据上述文本特征确定待检索文本;基于上述待检索文本从领域智库中确定出目标领域知识;根据上述待检索文本以及上述目标领域知识生成待纠错文本序列,并基于上述待纠错文本序列对上述待检索文本进行纠错以实现对上述初始文本信息的纠错。采用本申请实施例,可关联领域知识对文本进行纠错,提升文本纠错正确率。
技术领域
本申请涉及自然语言处理领域,尤其涉及一种文本纠错方法、装置、设备及存储介质。
背景技术
文本纠错是检索系统对用户输入的待检索文本中的错误进行感知,并根据用户的搜索意图将其修正为正确的待检索文本的过程。文本纠错作为检索系统中必不可少的一部分,在语言处理领域中的文本纠错主要由文本检错和错误纠正两部分组成,现有技术主要利用基于规则的算法进行纠错或者利用深度学习模型进行纠错。然而,基于规则的算法进行纠错仅依据待检索文本的字面特征,并没有考虑到待检索文本的所属领域,容易造成进行文本纠错后的待检索文本语义发生改变的问题,适用性差。基于深度学习模型的纠错算法需要进行大量的训练,但在待检索文本过短或者训练语料不足的情况下,难以进行有效的文本纠错。
发明内容
本申请实施例提供一种文本纠错方法、装置、设备及存储介质,可关联领域知识对文本进行纠错,提升文本纠错正确率。
第一方面,本申请实施例供了一种文本纠错方法,该方法包括:
获取初始文本信息的文本特征,并根据上述文本特征确定待检索文本;
基于上述待检索文本从领域智库中确定出目标领域知识;
根据上述待检索文本以及上述目标领域知识生成待纠错文本序列,并基于上述待纠错文本序列对上述待检索文本进行纠错以实现对上述初始文本信息的纠错。
在本申请实施例中,根据初始文本信息的文本特征确定待检索文本,进而从领域智库中确定出待检索文本的目标领域知识。根据待检索文本和目标领域知识生成待纠错文本序列,并给予待纠错文本序列对待检索文本进行纠错从而对初始文本信息进行纠错。基于上述待检索文本从领域智库中确定出目标领域知识,可以在待检索文本过短的时候确定出待检索文本所处的目标领域,并在语义方面对待检索文本进行关联,得到与待检索文本有关的目标领域知识,极大地补充了待检索文本的语义特征。根据待检索文本以及目标领域知识生成待纠错文本序列,并基于待纠错文本序列对待检索文本进行纠错,使得纠错过程与语义关联程度更大,更贴近初始文本信息的语义,提高了文本纠错正确率。
结合第一方面,在一种可能的实施方式中,上述基于上述待检索文本从领域智库中确定出目标领域知识包括:
基于上述待检索文本从领域智库中确定出上述待检索文本所属的目标领域,从上述目标领域中确定出与上述待检索文本相关的领域文本信息并确定各领域文本信息与上述待检索文本的相关度;
将上述各领域文本信息中与上述待检索文本的相关度大于或等于预设相关度阈值的领域文本信息确定为上述待检索文本的目标领域知识。
结合第一方面,在一种可能的实施方式中,上述根据上述待检索文本以及上述目标领域知识生成待纠错文本序列,并基于上述待纠错文本序列对上述待检索文本进行纠错,包括:
将上述待检索文本与上述目标领域知识分割为多个短序列文本,在各个短序列文本之间添加分割符并生成待纠错文本序列;
对上述待纠错文本序列中的各短序列文本进行语义标注,得到上述待纠错文本序列的语义标注;
基于上述待检索文本以及上述待纠错文本序列的语义标注,对上述待检索文本进行纠错。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010939914.X/2.html,转载请声明来源钻瓜专利网。