[发明专利]医疗文本纠错方法、装置、存储介质及电子设备在审
申请号: | 202210651940.1 | 申请日: | 2022-06-09 |
公开(公告)号: | CN115048937A | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 马鑫;畅绍政 | 申请(专利权)人: | 医渡云(北京)技术有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/253;G06F40/166;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 文本 纠错 方法 装置 存储 介质 电子设备 | ||
1.一种医疗文本纠错方法,其特征在于,包括:
获取用户输入的待纠错医疗文本;
将所述待纠错医疗文本进行短句划分,以得到多个短句;
利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理,生成第一纠错文本;
利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理,生成第二纠错文本。
2.根据权利要求1所述的方法,其特征在于,所述利用词汇错别字纠正模型对所述待纠错医疗文本中各短句进行词汇错别字识别及纠正处理,生成第一纠错文本,包括:
获取所述待纠错医疗文本各短句中每个字的N元语法概率得分;
根据所述每个字的N元语法概率得分,识别所述待纠错医疗文本是否存在错别字;
在所述待纠错医疗文本存在错别字时,纠正所述错别字,生成第一纠错文本。
3.根据权利要求2所述的方法,其特征在于,根据所述每个字的N元语法概率得分,识别所述待纠错医疗文本是否存在错别字,包括:
根据各所述短句中每个字的N元语法概率得分,确定各所述短句的中位值及各所述短句的平均绝对离差;
针对各所述短句中每个字,计算所述字的N元语法概率得分与所述平均绝对离差的差值;
计算所述差值与正态分布参数的乘积,并确定所述乘积与所述平均绝对离差的比值;
若所述比值大于预设阈值,且所述字的N元语法概率得分小于所述中位值,则确定所述字为错别字。
4.根据权利要求2所述的方法,其特征在于,所述纠正所述错别字包括:
获取所述错别字的拼音,并根据所述拼音获取所述错别字对应的纠错候选集,所述纠错候选集中包括至少一个纠错候选字;
使用目标字对所述错别字进行纠错,所述目标字为所述至少一个纠错候选字中使用频率最高的字。
5.根据权利要求4所述的方法,其特征在于,所述使用目标字对所述错别字进行纠错后,所述方法还包括:
获取所述目标字对应的第一困惑度,所述第一困惑度为使用所述目标字对所述错别字进行纠错后所述第一纠错文本的困惑度;
分别使用所述至少一个纠错候选字中除所述目标字外的其他字中的每个字对所述错别字进行纠正,并分别获取所述其他字中每个字对应的第二困惑度;
从所述第一困惑度和所述第二困惑度中确定最小困惑度;
使用所述最小困惑度对应的字对所述错别字进行纠正。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对各所述短句分别进行切词,以用于将各所述短句中的词与预设混淆列表作比对,所述预设混淆列表包括至少一个错误词;
若所述词存在于所述预设混淆列表,则将所述词作为错别字。
7.根据权利要求6所述的方法,其特征在于,所述对各所述短句分别进行切词后,所述方法还包括:
从所述各所述短句中的词中确定过滤词和白名单词,所述过滤词为数字、特殊字符中的至少一种;
将各所述短句中除所述过滤词汇和所述白名单词汇外的其他词作为错别字。
8.根据权利要求1所述的方法,其特征在于,所述语义错别字纠正模型包括检测网络、Soft Masking连接层和纠正网络;所述利用语义错别字纠正模型对所述第一纠错文本进行语义错别字识别及纠正处理,生成第二纠错文本包括:
将所述第一纠错文本输入所述检测网络,以根据所述第一纠错文本中所有字的上下文信息预测所述第一纠错文本中每个字出现语义错误的第一概率,所述上下文信息包括第一纠错文本中每个字与所述第一纠错文本中其他字的长期依赖关系及短期依赖关系;
将所述第一概率以及所述第一纠错文本输入所述Soft Masking连接层,对所述第一概率和所述第一纠错文本进行加权运算,得到加权结果;
将所述加权结果以及所述第一纠错文本输入所述纠正网络,以对所述第一纠错文本进行语义错别字识别及纠正处理,生成第二纠错文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于医渡云(北京)技术有限公司,未经医渡云(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210651940.1/1.html,转载请声明来源钻瓜专利网。