[发明专利]一种诊断名称标准化的智能匹配方法及系统在审
申请号: | 202210841464.X | 申请日: | 2022-07-18 |
公开(公告)号: | CN114996388A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 段志强;文建全;彭炜;任强;黄刊迪;谢春梅 | 申请(专利权)人: | 湖南创星科技股份有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/36;G06F40/289;G16H10/60 |
代理公司: | 长沙智德知识产权代理事务所(普通合伙) 43207 | 代理人: | 陈铭浩 |
地址: | 410000 湖南省长沙市长沙高新开发区岳麓西大道*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 诊断 名称 标准化 智能 匹配 方法 系统 | ||
1.一种诊断名称标准化的智能匹配方法,其特征在于,包括:
获取标准化的字典数据,国际疾病分类编码以及常用诊断文本数据;
基于字典数据和国际疾病分类编码对常用诊断文本数据进行分词,以形成语料库;
对分词后形成的所述语料库进行词嵌入训练,以形成词向量表;
对词向量表进行加权以得到医学术语的训练句子向量;
构建机器学习模型;
获取对语料库中的文本序列进行人工标注后得到的机器学习模型输入所需的标记数据集;
基于标记数据集将词向量表作为所述机器学习模型的输入,将训练句子向量作为所述机器学习模型的输出,以对所述机器学习模型进行训练;
获取用户通过用户终端输入的实际诊断文本,将所述实际诊断文本输入完成训练的所述机器学习模型,以得到实际句子向量;
基于实际句子向量生成与实际诊断文本数据对应的候选术语。
2.根据权利要求1所述的一种诊断名称标准化的智能匹配方法,其特征在于,所述基于字典数据和国际疾病分类编码对常用诊断文本数据进行分词,以形成语料库,包括:
获取医学术语表;
基于医学术语表生成自定义词典;
基于字典数据、国际疾病分类编码和自定义词典对常用诊断文本数据进行分词,以形成语料库。
3.根据权利要求1所述的一种诊断名称标准化的智能匹配方法,其特征在于,所述基于实际句子向量生成与实际诊断文本数据对应的候选术语,之后还包括:
对人工干预过后的候选术语采用协同过滤算法进行过滤,以生成初始推荐结果。
4.根据权利要求3所述的一种诊断名称标准化的智能匹配方法,其特征在于,所述对人工干预过后的候选术语采用协同过滤算法进行过滤,以生成初始推荐结果,包括:
获取用户通过用户终端输入的选择数量;
将所述候选术语的数量设置为所述选择数量。
5.根据权利要求3所述的一种诊断名称标准化的智能匹配方法,其特征在于,所述对人工干预过后的候选术语采用协同过滤算法进行过滤,以生成初始推荐结果,之后还包括:
采用云原生向量数据库对初始推荐结果进行向量检索以得到倒排索引;
根据索引编号获取初始推荐结果对应的key-value数据库中存储的具体术语缓存数据;
将具体术语缓存数据推荐给用户。
6.根据权利要求5所述的一种诊断名称标准化的智能匹配方法,其特征在于,所述将具体术语缓存数据推荐给用户,包括:
将具体术语缓冲数据通过用户终端的显示界面以下拉框的形式进行显示。
7.根据权利要求1所述的一种诊断名称标准化的智能匹配方法,其特征在于,所述基于字典数据和国际疾病分类编码对常用诊断文本数据进行分词,以形成语料库,还包括:
通过Python的第三方分词模块基于字典数据和国际疾病分类编码对常用诊断文本数据进行分词,以形成语料库。
8.根据权利要求1所述的一种诊断名称标准化的智能匹配方法,其特征在于,所述基于标记数据集将词向量表作为所述机器学习模型的输入,包括:
将词向量表的文本序列中的各个单词,通过词向量表映射为对应的词向量序列;
基于所述标记数据集将所述词向量序列作为所述机器学习模型的输入。
9.根据权利要求1所述的一种诊断名称标准化的智能匹配方法,其特征在于,所述标记数据集包括标记名;所述标记名和所述文本序列一一对应。
10.一种诊断名称标准化的智能匹配系统,其特征在于,应用于如权利要求1-9中任一项所述的诊断名称标准化的智能匹配方法;所述系统包括:
标准术语字典建模模块,用于获取标准化的字典数据,国际疾病分类编码及常用诊断文本数据;基于字典数据和国际疾病分类编码对常用诊断文本数据进行分词,以形成语料库;对分词后形成的所述语料库进行词嵌入训练,以形成词向量表;对词向量表进行加权以得到医学术语的训练句子向量;构建机器学习模型;基于标记数据集将词向量表作为所述机器学习模型的输入,将训练句子向量作为所述机器学习模型的输出,以对所述机器学习模型进行训练;
推荐模块,用于获取对语料库中的文本序列进行人工标注后得到的机器学习模型输入所需的标记数据集;基于实际句子向量生成与实际诊断文本数据对应的候选术语;
用户画像模块,用于获取用户通过用户终端输入的实际诊断文本,将所述实际诊断文本输入完成训练的所述机器学习模型,以得到实际句子向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南创星科技股份有限公司,未经湖南创星科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210841464.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:修护组合物及包含该组合物的精华水、精华乳
- 下一篇:晶圆装载系统