[发明专利]一种针对电子病历描述的查询重构方法有效

专利信息
申请号: 202010051309.9 申请日: 2020-01-17
公开(公告)号: CN111292818B 公开(公告)日: 2022-04-19
发明(设计)人: 方钰;姚窅;陆明名;黄欣;翟鹏珺 申请(专利权)人: 同济大学
主分类号: G16H10/60 分类号: G16H10/60;G16H50/70;G06K9/62;G06V10/764;G06F16/33
代理公司: 上海科律专利代理事务所(特殊普通合伙) 31290 代理人: 叶凤
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 电子 病历 描述 查询 方法
【权利要求书】:

1.一种针对电子病历描述的查询重构方法,其特征在于,包括

步骤1、对数据集中的电子病历文本和医疗文献文本进行预处理;

步骤2、训练SVM分类器对电子病历文本进行查询意图预测;

步骤3、获取电子病历文本的所有子查询并对其进行初步预筛选;

步骤4、训练查询质量预测模型,从步骤3中预筛选输出的子查询中选取最优子查询;

步骤5、结合步骤2得到的查询意图与步骤4输出的最优子查询得到最终的重构查询;

其中

步骤1:对数据集中的电子病历文本和医疗文献文本进行预处理

1.1、提取纯文本

因为电子病历文本本身就是纯文本,所以无需此步骤;而医疗文献文本是以XML格式存储的网页文件,需要去除其中无用的CSS和JS代码,并根据XML标签取出需要的纯文本数据,包括文献的标题、摘要、关键词和正文部分,使预处理后的文献文本拥有统一格式;

将电子病历纯文本和医疗文献提取后的纯文本提供给步骤1.2;

1.2、去除停用词

利用预处理词表去除纯文本中的停用词,包括不含有语义信息的词汇,以及使用频率高的词汇;

去除停用词后结果提供给步骤1.3;

1.3、还原词性

将不同的词性整合还原为词根,英文中同一个含义的词会有不同时态的变化,将这些词进行词性还原;

还原词性后即完成了步骤1的文本预处理工作,将预处理后的电子病历文本提供给步骤2和步骤3,而将预处理后的医疗文献文本提供给步骤4;

步骤2:训练SVM三分类器对电子病历文本进行查询意图预测

步骤2利用步骤1中得到的预处理后的电子病历文本作为训练集来训练SVM分类器进行查询意图的判断,具体包括以下步骤;

2.1、为训练集中的每一个电子病历文本标注三分类标签:若电子病历文本内容属于诊断,标注为1;若电子病历文本内容属于治疗方案,标注为2;若电子病历文本内容属于诊断检测手段,标注为3;标注后的结果提供给步骤2.2;

2.2、训练三分类器

三分类器的训练使用支持向量机SVM算法,训练时需要输入电子病历文本的特征和步骤2.1中标注的三种分类标签;分类器的训练需要用到两个电子病历文本的特征:(1)TF-IDF值;(2)语义信息;

(1)TF-IDF是一种统计方法,用以评估一字词对于一个语料库中的其中一份文件的重要程度;其中词频TF指的是某一个给定的词语在该文件中出现的频率,逆向文件频率IDF是由总文件数目除以包含该词语的文件数目,再将得到的商取以10为底的对数得到;TF-IDF值是这两个值的乘积,公式为

其中nω表示文件中词ω出现的次数,N表示文件中的总词数,Nd表示语料库中文件总数,Nω表示语料库中包含词ω的文件数;

(2)语义信息指三部分信息:是否包含诊断结果,值为0或1;是否表明已完成检查,值为0或1;查询文本长度,文本长度的值为0-200;

将训练得到的三分类器提供给步骤2.3;

2.3、将电子病历文本输入已训练好的三分类器,并将分类结果即查询意图提供给步骤5;

步骤3:获取电子病历文本的所有子查询并对其进行初步预筛选

子查询预筛选包含以下步骤:

3.1、在电子病历文本的所有子查询中选取长度在3-10之间的子查询;子查询长度指的是查询中的单词数目;结果提供给步骤3.2;

3.2、计算3.1中得到的每个子查询的平均互信息量,选取互信息量最高的30个子查询;子查询的平均互信息量计算公式如下:

其中n(x,y)表示在整个语料库中,单词x和单词y同时出现在窗口大小为25的文档中的频率,n(x)、n(y)分别表示单词x和单词y在语料库中出现的频率;Nc表示整个语料库的单词数;计算一个子查询中任意两个单词的互信息量,并将它们的加权平均值作为子查询的平均互信息量;

步骤3最终得到预筛选后的30个子查询,此结果提供给步骤4;

步骤4:训练查询质量预测模型,从预筛选后的子查询中选取最优子查询

4.1、为子查询标注查询质量分数

对步骤3得到的每一个预筛选后的子查询进行一轮检索,检索的目标文献集来自步骤1中预处理后的医疗文献文本集;搜索引擎使用的是Lemur开源项目中的Indri5.11;将检索结果与TREC会议提供的评价标准对比,计算得到检索的平均准确率得分,并将其标注为该子查询的查询质量分数;标注了查询质量分数的子查询作为此步骤的结果提供给步骤4.2;

4.2、训练查询质量预测模型

查询质量预测模型的训练使用现有的SVMRank算法,训练时需要输入可以表征子查询质量的指标和步骤4.1中标注的查询质量分数;

模型训练需要用到以下指标,对训练集中的每个子查询计算:(1)逆文档频率相关指标;(2)简化查询清晰度指标;(3)语料/查询相似特征指标;(4)查询可扩展性指标;

在分别介绍这些指标前定义此步骤用到的符号含义;对一个查询Q,假设它包含查询词ω1,…ωn,语料库C中n(ωi)表示查询词ωi在语料库中出现的频率,n(ωij)表示语料库中查询词ωij,其中i≠j,同时出现在一个长度为25个单词的窗口中的频率,Nc表示语料库包含的词语总数,Nω表示出现过查询词ω的文档数,Nd表示语料库中所有文件的数目;Pc(ω)表示语料库中查询词ω出现的概率,P(ω|Q)表示查询语句Q中ω出现的概率,Sω表示词语ω的同义词集;

(1)逆文档频率相关指标计算公式为:

其中Nω为包含单词ω的文档数,Nd为语料库中总文档数;对于每个子查询,计算每个查询词IDF值的和、最大值、标准偏差、算术平均值、几何平均值和调和平均值共同作为查询质量指标;

(2)简化查询清晰度指标计算公式为:

其中Pml(ω|Q)为查询Q中单词ω的出现的频率,Pc(ω)单词ω在语料库中出现的频率;

(3)语料/查询相似特征指标计算公式为:

和逆文档频率相关指标一样,计算每个查询词SCQ值的和、最大值、标准偏差、算术平均值、几何平均值和调和平均值共同作为查询质量指标;

(4)查询可扩展性指标

一个反映查询扩展性能的指标——查询可扩展性指标;计算公式为:

其中Sω为查询词ω的同义词集,P(α|Q)指查询模型中查询词α的出现概率;查询可扩展性越高的查询,其查询质量越高,因为在对它们进行查询扩展后可以检索到更多的相关文档;

将训练得到的查询质量预测模型提供给步骤4.3;

4.3、对步骤3得到的每一个预筛选后的子查询,计算步骤4.2中表征子查询质量的4个指标,并将其输入到步骤4.2训练得到的查询质量预测模型得到该子查询的查询质量得分;选取30个子查询中查询质量得分最高的子查询作为最优子查询,结果提供给步骤5;

步骤5:结合查询意图和最优子查询得到最终的重构查询

将步骤2得到的查询意图和步骤4得到的最优子查询结合作为最终结果的重构查询。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010051309.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top