[发明专利]一种融合交叉知识注意力的电子病历相似检索方法在审
申请号: | 202011431643.3 | 申请日: | 2020-12-07 |
公开(公告)号: | CN114550856A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 樊昭磊;吴军;何彬彬;张伯政;张述睿 | 申请(专利权)人: | 山东众阳健康科技集团有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F16/33;G06N3/02;G06N3/08 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 支文彬 |
地址: | 250001 山东省济南市市辖区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 交叉 知识 注意力 电子 病历 相似 检索 方法 | ||
一种融合交叉知识注意力的电子病历相似检索方法,利用知识注意力的相互交叉的方式,提供了电子病历文本间知识信息传递的一种有效模式。知识信息来源两部分,一是文本内的实体信息,二是实体位置信息。电子病历中的实体是作为整体发挥作用的,传统方法只考虑实体内单字的作用,缺乏实体的整体交互作用,知识注意力机制可以很好的刻画实体间的相互关系,交互模式为文本间知识信息传递提供了通道,能够在多文本相似度量方面给出有效评估。在给定原始电子病历文本、若干个判断文本及相似文本标签的情况下,提高了电子病历文本间相似检索精度。
技术领域
本发明涉及医疗信息化技术领域,具体涉及一种融合交叉知识注意力的电子病历相似检索方法。
背景技术
现实世界中,相对于图像、语音格式,自然语言文本由于其易读性与便捷性,越发成为信息传递载体的主要形式。信息时代积累下庞大的文本数据,例如博客文章、网络留言对话、医院电子病历、在线阅读理解文本等,如何准确高效的衡量电子病历文本间相似度是当前面临的一大难题。当前文本相似度量方法如下:传统机器学习方法。基于统计信息的TF-IDF方法,通过统计文本中单字的词频信息,构建出词频向量矩阵,进而利用余弦相似度进行判断;基于最长公共子序列的LCS方法,通过字符匹配的数量进行相似判断;潜在语义分析(LSA)利用单词频数或者TF-IDF作为权值,将文本表示为单词(话题)向量空间中的向量,通过內积运算进行相似判断;概率潜在语义分析(PLSA)与LSA类似,不同在于PLSA中话题是不可观测的;潜在狄利克雷分配(LDA)拓展了PLSA,不同在于LDA假设先验分布是服从狄利克雷分布,通过吉布斯抽样方法进行模型学习,进而生成文本的话题分布。上述传统机器学习方法,只是进行统计意义上的相似度量,没有考虑文本中词语的位置信息,缺乏词语的语义信息度量。
神经网络模型方法。自2016年以来,神经网络在自然语言文本度量领域得到长足应用。在辅助诊疗领域,2018年清华大学学者通过多层卷积神经网络抽取多维文本特征,建立CAMSE模型,尝试在语义方面预测出当前诊断的疾病编码。在对话领域,2019年微软研究人员预先生成段落、语句、实体多层次的网络结构,通过图神经网络,建立多跳对话模型,衡量当前对话与链接文本的相似性。但是,上述模型并没有考虑文本间知识传递的相互作用,在文本相似评估中融入先验知识信息,仍然是亟待解决的问题。
交叉注意力机制可以应用在自然语言处理、图像识别等多个领域,也有一些研究成果,例如交叉注意力在语义分割、自然场景文字识别、知识图谱问答和情感分析的应用,但是,融合知识注意力的交叉模式,增强文本间知识信息传递方面,目前研究成果较少。
发明内容
本发明为了克服以上技术的不足,提供了一种电子病历文本间相似检索精度高的融合交叉知识注意力的电子病历相似检索方法。
本发明克服其技术问题所采用的技术方案是:
一种融合交叉知识注意力的电子病历相似检索方法,包括如下步骤:
a)数据处理:将输入电子病历文本S0和n个电子病历判断文本{S1,S2,...,Sn},设定最大字符长度为L,将输入电子病历文本中文本长度超过L的部分截掉,不足的部分进行特定字符补全,其中L及n均为正整数;
b)实体标记获取:利用现有实体库或利用神经网络模型抽取实体信息的方式进行实体标记;
c)将电子病历文本S0及n个电子病历判断文本{S1,S2,...,Sn}的构成的电子病历文本集合{S0,S1,S2,...,Sn}经步骤b)中实体标记后得到文本实体标签信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东众阳健康科技集团有限公司,未经山东众阳健康科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011431643.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于疼痛控制和康复的系统、方法和设备
- 下一篇:三维存储器元件及其制造方法