[发明专利]一种针对电子病历描述的查询重构方法有效

申请号：	202010051309.9	申请日：	2020-01-17
公开（公告）号：	CN111292818B	公开（公告）日：	2022-04-19
发明（设计）人：	方钰;姚窅;陆明名;黄欣;翟鹏珺	申请（专利权）人：	同济大学
主分类号：	G16H10/60	分类号：	G16H10/60;G16H50/70;G06K9/62;G06V10/764;G06F16/33
代理公司：	上海科律专利代理事务所(特殊普通合伙) 31290	代理人：	叶凤
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种针对电子病历描述查询方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种针对电子病历描述的查询重构方法，其特征在于，包括

步骤1、对数据集中的电子病历文本和医疗文献文本进行预处理；

步骤2、训练SVM分类器对电子病历文本进行查询意图预测；

步骤3、获取电子病历文本的所有子查询并对其进行初步预筛选；

步骤4、训练查询质量预测模型，从步骤3中预筛选输出的子查询中选取最优子查询；

步骤5、结合步骤2得到的查询意图与步骤4输出的最优子查询得到最终的重构查询；

其中

步骤1：对数据集中的电子病历文本和医疗文献文本进行预处理

1.1、提取纯文本

因为电子病历文本本身就是纯文本，所以无需此步骤；而医疗文献文本是以XML格式存储的网页文件，需要去除其中无用的CSS和JS代码，并根据XML标签取出需要的纯文本数据，包括文献的标题、摘要、关键词和正文部分，使预处理后的文献文本拥有统一格式；

将电子病历纯文本和医疗文献提取后的纯文本提供给步骤1.2；

1.2、去除停用词

利用预处理词表去除纯文本中的停用词，包括不含有语义信息的词汇，以及使用频率高的词汇；

去除停用词后结果提供给步骤1.3；

1.3、还原词性

将不同的词性整合还原为词根，英文中同一个含义的词会有不同时态的变化，将这些词进行词性还原；

还原词性后即完成了步骤1的文本预处理工作，将预处理后的电子病历文本提供给步骤2和步骤3，而将预处理后的医疗文献文本提供给步骤4；

步骤2：训练SVM三分类器对电子病历文本进行查询意图预测

步骤2利用步骤1中得到的预处理后的电子病历文本作为训练集来训练SVM分类器进行查询意图的判断，具体包括以下步骤；

2.1、为训练集中的每一个电子病历文本标注三分类标签：若电子病历文本内容属于诊断，标注为1；若电子病历文本内容属于治疗方案，标注为2；若电子病历文本内容属于诊断检测手段，标注为3；标注后的结果提供给步骤2.2；

2.2、训练三分类器

三分类器的训练使用支持向量机SVM算法，训练时需要输入电子病历文本的特征和步骤2.1中标注的三种分类标签；分类器的训练需要用到两个电子病历文本的特征：(1)TF-IDF值；(2)语义信息；

(1)TF-IDF是一种统计方法，用以评估一字词对于一个语料库中的其中一份文件的重要程度；其中词频TF指的是某一个给定的词语在该文件中出现的频率，逆向文件频率IDF是由总文件数目除以包含该词语的文件数目，再将得到的商取以10为底的对数得到；TF-IDF值是这两个值的乘积，公式为

其中n_ω表示文件中词ω出现的次数，N表示文件中的总词数，N_d表示语料库中文件总数，N_ω表示语料库中包含词ω的文件数；

(2)语义信息指三部分信息：是否包含诊断结果，值为0或1；是否表明已完成检查，值为0或1；查询文本长度，文本长度的值为0-200；

将训练得到的三分类器提供给步骤2.3；

2.3、将电子病历文本输入已训练好的三分类器，并将分类结果即查询意图提供给步骤5；

步骤3：获取电子病历文本的所有子查询并对其进行初步预筛选

子查询预筛选包含以下步骤：

3.1、在电子病历文本的所有子查询中选取长度在3-10之间的子查询；子查询长度指的是查询中的单词数目；结果提供给步骤3.2；

3.2、计算3.1中得到的每个子查询的平均互信息量，选取互信息量最高的30个子查询；子查询的平均互信息量计算公式如下：

其中n(x,y)表示在整个语料库中，单词x和单词y同时出现在窗口大小为25的文档中的频率，n(x)、n(y)分别表示单词x和单词y在语料库中出现的频率；N_c表示整个语料库的单词数；计算一个子查询中任意两个单词的互信息量，并将它们的加权平均值作为子查询的平均互信息量；

步骤3最终得到预筛选后的30个子查询，此结果提供给步骤4；

步骤4：训练查询质量预测模型，从预筛选后的子查询中选取最优子查询

4.1、为子查询标注查询质量分数

对步骤3得到的每一个预筛选后的子查询进行一轮检索，检索的目标文献集来自步骤1中预处理后的医疗文献文本集；搜索引擎使用的是Lemur开源项目中的Indri5.11；将检索结果与TREC会议提供的评价标准对比，计算得到检索的平均准确率得分，并将其标注为该子查询的查询质量分数；标注了查询质量分数的子查询作为此步骤的结果提供给步骤4.2；

4.2、训练查询质量预测模型

查询质量预测模型的训练使用现有的SVMRank算法，训练时需要输入可以表征子查询质量的指标和步骤4.1中标注的查询质量分数；

模型训练需要用到以下指标，对训练集中的每个子查询计算：(1)逆文档频率相关指标；(2)简化查询清晰度指标；(3)语料/查询相似特征指标；(4)查询可扩展性指标；

在分别介绍这些指标前定义此步骤用到的符号含义；对一个查询Q，假设它包含查询词ω₁,…ω_n，语料库C中n(ω_i)表示查询词ω_i在语料库中出现的频率，n(ω_i,ω_j)表示语料库中查询词ω_i,ω_j，其中i≠j，同时出现在一个长度为25个单词的窗口中的频率，N_c表示语料库包含的词语总数，N_ω表示出现过查询词ω的文档数，N_d表示语料库中所有文件的数目；P_c(ω)表示语料库中查询词ω出现的概率，P(ω|Q)表示查询语句Q中ω出现的概率，S_ω表示词语ω的同义词集；