[发明专利]错误医疗文本的生成方法、装置及存储介质有效
申请号: | 202011135476.8 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112016281B | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 张颖 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/226;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 错误 医疗 文本 生成 方法 装置 存储 介质 | ||
本申请涉及医疗科技领域,具体公开了一种错误医疗文本的生成方法、装置及存储介质。该方法包括:获取多个第一医疗文本,其中,所述多个第一医疗文本中的每个第一医疗文本为正确的医疗文本;将所述每个第一医疗文本输入到完成训练的第一神经网络,得到与所述每个第一医疗文本对应的第二医疗文本,其中,所述第二医疗文本为错误的医疗文本。本申请有利于提高生成错误医疗语料的丰富性。
技术领域
本申请文本识别技术领域,具体涉及一种错误医疗文本的生成方法、装置及存储介质。
背景技术
相较于通用领域的自然语言文本,医疗领域的医疗文本中包括较多的专业词汇以及音译词,如“阿伐他汀”、“二甲双胍缓释片”。用户在输入这类医疗文本的过程中较容易出现拼写错误。而且在搜索系统和对话系统中,用户输入的错误的医疗文本会造成文本识别系统难以理解用户的意图或者错误理解用户的意图,进而难以向用户反馈期望的结果。
因此,为了正确理解用户的意图,通过训练样本训练出一个文本纠错模型,在用户输入医疗文本之后,通过文本纠错模型对用户输入的医疗文本进行纠错,得到正确的医疗文本,进而可以将正确的医疗文本应用于下一级搜索系统或对话系统中,输出用户期望的结果。
然而,对文本纠错模型的训练所使用的训练样本都是人工构造的训练,训练样本的语料不够丰富,且数量较少,训练后的文本纠错模型泛化能力差。
发明内容
本申请实施例提供了一种错误医疗文本的生成方法、装置及存储介质。生成数量较多且语料丰富的错误医疗文本,提高文本纠错模型的泛化能力。
第一方面,本申请实施例提供一种错误医疗文本的生成方法,包括:
获取多个第一医疗文本,其中,所述多个第一医疗文本中的每个第一医疗文本为正确的医疗文本;
将所述每个第一医疗文本输入到完成训练的第一神经网络,得到与所述每个第一医疗文本对应的第二医疗文本,其中,所述第二医疗文本为错误的医疗文本。
第二方面,本申请实施例提供一种错误医疗文本的生成装置,包括:
获取单元,用于获取多个第一医疗文本,其中,所述多个第一医疗文本中的每个第一医疗文本为正确的医疗文本;
处理单元,用于将所述每个第一医疗文本输入到完成训练的第一神经网络,得到与所述每个第一医疗文本对应的第二医疗文本,其中,所述第二医疗文本为错误的医疗文本。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如第一方面所述的方法中的步骤的指令。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施例中,可以通过第一神经网络,将正确的医疗文本生成错误的第二医疗文本。由于正确的医疗文本的数量相对较多,所以,生成的错误的第二医疗文本的数量较多。而且,通过神经网络生成错误语料,不掺杂人工经验,可提高第二医疗文本生成的随机性,使第二医疗文本的语料比较丰富。并且,在使用第二医疗文本训练文本纠错模型的情况下,可提高文本纠错模型的识别精度和泛化能力。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011135476.8/2.html,转载请声明来源钻瓜专利网。