[发明专利]医疗文本特征提取与自动匹配方法和系统有效
申请号: | 201810537989.8 | 申请日: | 2018-05-30 |
公开(公告)号: | CN108804423B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 陈娴娴;丁睿;汤时虎 | 申请(专利权)人: | 深圳平安医疗健康科技服务有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 林彦之 |
地址: | 518000 广东省深圳市福田区华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 文本 特征 提取 自动 匹配 方法 系统 | ||
1.一种医疗文本特征提取与自动匹配方法,其特征在于包括以下步骤:
步骤1、从外部输入的医疗数据中提取医疗文本,并对医疗文本进行分词处理,得到待与规范词表中的规范词进行匹配的医疗词语;
步骤2、对于每个医疗词语,通过词向量化操作,获得所述医疗词语中的每个语素所对应的N维向量,形成与所述医疗词语对应的M×N维矩阵,其中,M为所述医疗词语中所包含的语素的数量;
步骤3、将与所述医疗词语对应的M×N维矩阵降维为向量,生成降维后的向量;
步骤4、分别计算所述降维后的向量与所述规范词表中的各个规范词所对应的向量的向量距离;
步骤5、对计算出的向量距离从小到大进行排序,从所述规范词表的规范词中选取与所述降维后的向量的向量距离排序在前的一个或多个规范词,作为候选规范词;
步骤6、计算所述医疗词语与各个候选规范词之间的逻辑包含距离和编辑距离,并将所述逻辑包含距离与所述编辑距离加权求和,将加权求和结果最大的候选规范词作为所述医疗词语最终匹配的规范词,所述逻辑包含距离表示所述医疗词语与所述规范词的重合度,所述编辑距离表示将所述医疗词语编辑为所述规范词所需的最少编辑操作次数,在所述加权求和中,所述逻辑包含距离的权重为所述编辑距离的权重的2倍。
2.根据权利要求1所述的医疗文本特征提取与自动匹配方法,其特征在于,在所述步骤3中,采用池化方法进行所述降维,所述池化方法为平均池化、最大池化、最小池化中的一种或几种,
在采用平均池化、最大池化、最小池化中的一种时,将与所述医疗词语对应的M×N维矩阵降维为1×N维向量,作为所述降维后的向量,
其中,在采用平均池化、最大池化、最小池化中的几种时,将池化后的向量级联,形成所述降维后的向量。
3.根据权利要求1所述的医疗文本特征提取与自动匹配方法,其特征在于,在步骤1之后还包括:
步骤1-1、通过文本比较,判定所述规范词表中是否有某个规范词与所述医疗词语完全相同,如果有,则直接将所述规范词作为所述医疗词语最终匹配的规范词,结束本方法。
4.根据权利要求1所述的医疗文本特征提取与自动匹配方法,其特征在于,所述规范词和所述医疗词语具有属性标注,
其中,在所述步骤4中,分别计算所述医疗词语所对应的降维后的向量与所述规范词表中的与所述医疗词语具有相同的属性标注的各个规范词所对应的向量的向量距离。
5.根据权利要求1所述的医疗文本特征提取与自动匹配方法,其特征在于,所述向量距离为欧氏距离。
6.一种用于执行根据权利要求1至5中的任一个所述的方法的医疗文本特征提取与自动匹配系统,其特征在于包括分词模块、词向量化模块、降维模块、匹配模块,
其中,所述分词模块用于从外部输入的医疗数据中提取医疗文本,并对医疗文本进行分词处理,得到待与规范词表中的规范词进行匹配的医疗词语;
所述词向量化模块用于通过词向量化操作,获得所述医疗词语中的每个语素所对应的N维向量,形成M×N维矩阵,其中,M为所述医疗词语中所包含的语素的数量;
所述降维模块用于将与所述医疗词语对应的M×N维矩阵降维为向量,生成降维后的向量;
所述匹配模块用于:
分别计算所述降维后的向量与所述规范词表中的各个规范词所对应的向量的向量距离;
对计算出的向量距离从小到大进行排序,从所述规范词表的规范词中选取与所述降维后的向量的向量距离排序在前的一个或多个规范词,作为候选规范词;
计算所述医疗词语与各个候选规范词之间逻辑包含距离和/或编辑距离,根据计算结果选择候选规范词中的一个作为与所述医疗词语最终匹配的规范词;
所述匹配模块还用于:
计算所述医疗词语与各个候选规范词之间的逻辑包含距离和编辑距离,并将所述逻辑包含距离与所述编辑距离加权求和,将加权求和结果最大的候选规范词作为所述医疗词语最终匹配的规范词,所述逻辑包含距离表示所述医疗词语与所述规范词的重合度,所述编辑距离表示将所述医疗词语编辑为所述规范词所需的最少编辑操作次数,在所述加权求和中,所述逻辑包含距离的权重为所述编辑距离的权重的2倍。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有用于执行根据权利要求1至5中的任一个所述的方法的程序,所述程序被处理器执行时,执行根据权利要求1至5中的任一个所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳平安医疗健康科技服务有限公司,未经深圳平安医疗健康科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810537989.8/1.html,转载请声明来源钻瓜专利网。