[发明专利]医疗文本纠错方法、装置、存储介质及电子设备在审
申请号: | 202210651940.1 | 申请日: | 2022-06-09 |
公开(公告)号: | CN115048937A | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 马鑫;畅绍政 | 申请(专利权)人: | 医渡云(北京)技术有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/253;G06F40/166;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 文本 纠错 方法 装置 存储 介质 电子设备 | ||
本公开涉及自然语言处理领域,具体涉及一种医疗文本纠错方法、医疗文本纠错装置、存储介质及电子设备,该文本纠错方法包括:获取用户输入的待纠错医疗文本;将所述待纠错医疗文本进行短句划分,以得到多个短句;利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理,生成第一纠错文本;利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理,生成第二纠错文本。本公开能够提高医疗文本纠错的准确率。
技术领域
本公开涉及自然语言处理领域,尤其涉及一种医疗文本纠错方法、医疗文本纠错装置、存储介质及电子设备。
背景技术
在实际的医疗诊断过程中,医生在写病历的时候很有可能写入一些错别字、词。但医学是很严谨的,病例中的错误字、词可能会对患者造成误诊,进而对患者造成伤害。并且在医疗数据生产的过程中,存在错误字、词的医疗文本也可能对之后的医学研究造成一定的干扰。因此,需要对医疗文本进行纠错。
文本纠错,是自然语言处理领域检测一段文字是否存在错别字、以及将错别字进行纠正的技术。现有的医疗文本纠错方案,解决方法主要包括两种:第一种是N元语法n-gram、kenlm等概率计算模型进行纠错。采用此类模型进行文本纠错,对于存在上下文依赖的语义错误处理不够准确,导致文本纠错的准确率不高。
第二种是基于深度学习的神经网络模型构建的自然语言处理(Nature LanguageProcess,NLP)模型。此类模型通常使用海量中文语料库作为训练集训练构建而成,能够对医疗文本中的常见语义错误进行纠正,但对于医疗文本中专业医疗词汇的错误不能有效地进行纠错。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种医疗文本纠错方法、医疗文本纠错装置、存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种医疗文本纠错方法,包括:
获取用户输入的待纠错医疗文本;
将所述待纠错医疗文本进行短句划分,以得到多个短句;
利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理,生成第一纠错文本;
利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理,生成第二纠错文本。
在本公开的一种示例性实施例中,所述利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理,生成第一纠错文本,包括:
获取所述待纠错医疗文本各短句中每个字的N元语法概率得分;
根据所述每个字的N元语法概率得分,识别所述待纠错医疗文本是否存在错别字;
在所述待纠错医疗文本存在错别字时,纠正所述错别字,生成第一纠错文本。
在本公开的一种示例性实施例中,根据所述每个字的N元语法概率得分,识别所述待纠错医疗文本是否存在错别字,包括:
根据各所述短句中每个字的N元语法概率得分,确定各所述短句的中位值及各所述短句的平均绝对离差;
针对各所述短句中每个字,计算所述字的N元语法概率得分与所述平均绝对离差的差值;
计算所述差值与正态分布参数的乘积,并确定所述乘积与所述平均绝对离差的比值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于医渡云(北京)技术有限公司,未经医渡云(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210651940.1/2.html,转载请声明来源钻瓜专利网。