[发明专利]医疗文本纠错方法、装置、存储介质及电子设备在审

申请号：	202210651940.1	申请日：	2022-06-09
公开（公告）号：	CN115048937A	公开（公告）日：	2022-09-13
发明（设计）人：	马鑫;畅绍政	申请（专利权）人：	医渡云（北京）技术有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/253;G06F40/166;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京律智知识产权代理有限公司 11438	代理人：	王辉
地址：	100191 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	医疗文本纠错方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及自然语言处理领域，具体涉及一种医疗文本纠错方法、医疗文本纠错装置、存储介质及电子设备，该文本纠错方法包括：获取用户输入的待纠错医疗文本；将所述待纠错医疗文本进行短句划分，以得到多个短句；利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理，生成第一纠错文本；利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理，生成第二纠错文本。本公开能够提高医疗文本纠错的准确率。

技术领域

本公开涉及自然语言处理领域，尤其涉及一种医疗文本纠错方法、医疗文本纠错装置、存储介质及电子设备。

背景技术

在实际的医疗诊断过程中，医生在写病历的时候很有可能写入一些错别字、词。但医学是很严谨的，病例中的错误字、词可能会对患者造成误诊，进而对患者造成伤害。并且在医疗数据生产的过程中，存在错误字、词的医疗文本也可能对之后的医学研究造成一定的干扰。因此，需要对医疗文本进行纠错。

文本纠错，是自然语言处理领域检测一段文字是否存在错别字、以及将错别字进行纠正的技术。现有的医疗文本纠错方案，解决方法主要包括两种：第一种是N元语法n-gram、kenlm等概率计算模型进行纠错。采用此类模型进行文本纠错，对于存在上下文依赖的语义错误处理不够准确，导致文本纠错的准确率不高。

第二种是基于深度学习的神经网络模型构建的自然语言处理(Nature LanguageProcess，NLP)模型。此类模型通常使用海量中文语料库作为训练集训练构建而成，能够对医疗文本中的常见语义错误进行纠正，但对于医疗文本中专业医疗词汇的错误不能有效地进行纠错。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种医疗文本纠错方法、医疗文本纠错装置、存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种医疗文本纠错方法，包括：

获取用户输入的待纠错医疗文本；