[发明专利]医学短语匹配方法、装置、设备及存储介质有效
申请号: | 202011386028.5 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112464662B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 郭建福 | 申请(专利权)人: | 深圳平安医疗健康科技服务有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/166;G06F40/247 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518000 广东省深圳市福田区华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医学 短语 匹配 方法 装置 设备 存储 介质 | ||
1.一种医学短语匹配方法,其特征在于,包括:
获取待识别短语,所述待识别短语包括多个医学实体;
在预置的医学文本库中确定与所述待识别短语相关的标准医学短语集,所述标准医学短语集包括多个标准医学短语;
将所述待识别短语与所述多个标准医学短语进行拼接,得到多个待识别医学语句;
将所述多个待识别医学语句分别输入训练好的BERT模型中,生成多个待识别医学语句向量;
根据所述多个待识别医学语句向量生成多个相似度;
比较所述多个相似度的取值大小,确定取值最大的目标相似度,并根据所述目标相似度确定与所述待识别短语匹配的标准医学短语;
在所述获取待识别短语,所述待识别短语包括多个医学实体之前,所述医学短语匹配方法还包括:
对初始改进的BERT模型进行训练,得到训练好的BERT模型;
所述对初始改进的BERT模型进行训练,得到训练好的BERT模型,包括:
获取医学短文本数据,所述医学短文本数据包括临床数据场景下的多个原始医学短句,其中,每个原始医学短句包括多个通用的医学词语;
对所述医学短文本数据进行数据增强,得到增强后的医学短文本数据;
将所述增强后的医学短文本数据划分为原始语句训练集和标准语句训练集;
根据所述原始语句训练集和所述标准语句训练集对初始改进的BERT模型进行训练,生成训练好的BERT模型;
所述根据所述原始语句训练集和所述标准语句训练集对初始改进的BERT模型进行训练,生成训练好的BERT模型;包括:
在原始语句训练集中随机选择目标原始医学短语,并在标准语句训练集中选择与初始原始短语对应的目标标准医学短语;将目标原始医学短语和目标标准医学短语进行拼接,得到目标拼接语句,并将目标拼接语句输入到初始改进的BERT模型的中,得到目标向量;将目标向量输入到全连接层中,经过非线性转换得到目标相似度;根据目标相似度和预置的加权交叉熵公式,得到目标损失函数值,迭代执行训练过程,直至目标损失函数值达到阈值停止训练,生成训练好的BERT模型,预置的加权交叉熵公式为:其中,N表示样本总数,W是正样本的权重,Yi表示样本的实际标签,p(yi)表示初始改进的BERT模型计算的原始医学短语和标准医学短语的相似度;其中,样本包括一个原始医学短语和一个标准医学短语,Yi表示样本的实际标签,若相似则Yi=1,不相似则Yi=0。
2.根据权利要求1所述的医学短语匹配方法,其特征在于,所述在预置的医学文本库中确定与所述待识别短语相关的标准医学短语集,所述标准医学短语集包括多个标准医学短语,包括:
确定所述待识别短语中每个医学实体对应的实体类型和所属的目标医学类别;
在所述预置的医学文本库中抽取所述目标医学类别中全部候选医学词语,得到目标类别医学词语;
在所述目标类别医学词语中选择与所述实体类型对应的待选择医学词语,确定多个标准医学短语,得到标准医学短语集。
3.根据权利要求1所述的医学短语匹配方法,其特征在于,所述将所述待识别短语与所述多个标准医学短语进行拼接,得到多个待识别医学语句,包括:
对所述多个标准医学短语中的标准医学短语进行排序,得到多个待拼接医学短语和对应的排列顺序;
按照所述对应的排列顺序依次将所述多个待拼接医学短语与所述待识别短语进行连接,得到多个拼接的医学语句;
在每个拼接的医学语句中加入起始符号和分隔符号,生成多个待识别医学语句。
4.根据权利要求1所述的医学短语匹配方法,其特征在于,所述将所述多个待识别医学语句分别输入训练好的BERT模型中,生成多个待识别医学语句向量,包括:
将所述多个待识别医学语句分别输入训练好的BERT模型的transformer层中,生成多个待处理医学语句向量;
通过所述训练好的BERT模型的池化层对所述多个待识别医学语句进行实体识别,得到多个字向量;
将所述多个字向量分别与每个待处理医学语句向量进行求和并取均值,生成多个待识别医学语句向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳平安医疗健康科技服务有限公司,未经深圳平安医疗健康科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011386028.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多层预制基板及其压合工艺
- 下一篇:一种基于同轴线缆的5G信号传输系统