[发明专利]一种基于文本特征降维的LSTM注意力机制疾病预测方法在审

申请号：	202110915825.6	申请日：	2021-08-10
公开（公告）号：	CN113808742A	公开（公告）日：	2021-12-17
发明（设计）人：	余肖生;沈胜;张合欢	申请（专利权）人：	三峡大学
主分类号：	G16H50/30	分类号：	G16H50/30;G16H10/60;G06F40/284;G06F40/289;G06N3/04;G06N3/08
代理公司：	武汉高得专利代理事务所(普通合伙) 42268	代理人：	杨如增
地址：	443002 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本特征 lstm 注意力机制疾病预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于文本特征降维的LSTM注意力机制疾病预测方法，包括以下步骤：(1)数据预处理；(2)结合电子病历文本特点，形成词特征加权计算方法；(3)利用数据降维提取数据集关键信息；(4)将非结构化的文本数据转化为计算机能识别的结构化数据；(5)LSTM注意力机制模型训练。该基于文本特征降维的LSTM注意力机制疾病预测方法将LDA模型引入LSTM注意力机制中，通过LDA模型实现电子病历文本关键信息的提取，降低数据冗余，进而提升LSTM注意力机制模型的性能。

技术领域

本发明涉及电子病历文本分类领域，具体为一种基于文本特征降维的LSTM注意力机制疾病预测方法。

背景技术

随着人工智能技术与大数据技术的发展与应用、各组织机构对医疗健康信息数据的愈发重视，近年来国内外的医疗机构在医疗实践中有意识的存储了大量的具有极高研究和实用价值的电子病历文本数据。复杂多样的非结构化电子病历文本数据分析与应用的发展，对推动医疗领域智能化与现代化提供了必要的条件。

传统的文本分类算法以基于统计的机器学习分类算法模型为主，如KNN模型、朴素贝叶斯模型等。但这类机器学习算法忽略了特征之间的相关性，存在文本信息提取能力较弱。在医疗领域等分类准确率要求较高的任务情形下，无法很好的适用。随着自然语言处理领域的研究发展，研究者开始对文本数据进行适当的转化处理，进而利用深度学习算法对文本进行分析预测，并取得了较好的效果。相对与机器学习算法，LSTM等深度学习算法模型，可以从更多维度获取文本数据的信息特征，取得更好的准确率。为了使得模型在目标任务上有更好的适用性，进一步提升模型的性能，研究者在原有模型的基础上引入了注意力机制，形成了如LSTM注意力机制模型。

由于医疗领域数据记录标准不一，且存在不可避免的人工记录误差，使得电子病历文本中存在较严重数据冗余。这些冗余的数据会干扰到模型算法对疾病的正常预测，降低模型算法的运算性能。如“患者今晨出现胃部不适，午饭后两小时，胃部开始绞痛，后于我院肠胃科诊治。”该电子病历文本中，“患者今晨”、“后于我院”，这样的文本信息，与疾病描述并没有关联。但模型预测时，会对这些文本信息进行分析处理，这会对模型性能造成一定的干扰。

发明内容

本发明的目的在于提供一种基于文本特征降维的LSTM注意力机制疾病预测方法，用于解决电子病历中数据冗余问题，提升模型算法的性能。

为实现上述目的，本发明提供如下技术方案：一种基于文本特征降维的LSTM注意力机制疾病预测方法，包括以下步骤：

(1)数据预处理。

(2)结合电子病历文本特点，形成词特征加权计算方法。

计算方法包括词义加权计算方法和词长加权计算方法；

词义加权计算方法，需要根据任务目标构建两种本地词库：任务相关词库和非任务相关词库，用以确定词义与文本的关联性。词义加权计算方法公式如下：

词长加权计算方法，词长也即组成词的字数，在一定范围内词字数越多词携带的信息越高。词长加权计算公式如下：

(3)利用数据降维提取数据集关键信息。

将词长和词义加权引入LDA模型，改变原有的词分布状态，用于实现对LDA模型的降维过程的针对性指导。

(4)将非结构化的文本数据转化为计算机能识别的结构化数据。

电子病历文本为计算机无法识别的非结构化数据，通过词嵌入的方法将文本数据转化为计算机可识别的数字矩阵。