[发明专利]一种基于词义加权TF-IDF疾病表征词提取方法在审

专利信息
申请号: 202110915839.8 申请日: 2021-08-10
公开(公告)号: CN113807090A 公开(公告)日: 2021-12-17
发明(设计)人: 余肖生;沈胜;张合欢 申请(专利权)人: 三峡大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/284;G06F40/216;G06F40/30;G16H10/60
代理公司: 武汉高得专利代理事务所(普通合伙) 42268 代理人: 杨如增
地址: 443002 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 词义 加权 tf idf 疾病 表征 提取 方法
【说明书】:

发明公开了一种基于词义加权TF‑IDF疾病表征词提取方法,包括以下步骤:(1)数据预处理;(2)结合电子病历特点,构建本地任务词库;(3)计算文本词义特征加权权重值;(4)统计词频,计算逆文档频率,形成TF‑IDF计算模型,并将词义权重引入模型;(5)模型运行,获取疾病表征词。该基于词义加权TF‑IDF疾病表征词提取方法与传统的TF‑IDF模型相比,本发明提出的技术方案引入了词义加权以提升关键语义信息词的“重要性”,通过词义加权的方式对文本的词频信息进行扰动,提高了模型对电子病历文本中疾病表征词的提取性能。

技术领域

本发明涉及电子病历提取技术领域,具体为一种基于词义加权TF-IDF疾病表征词提取方法。

背景技术

随着人工智能技术与大数据技术的发展与应用、各组织机构对医疗健康信息数据的愈发重视,近年来国内外的医疗机构在医疗实践中有意识的存储了大量的具有极高研究和实用价值的电子病历文本数据。从复杂多样的非结构化电子病历文本数据中提取出疾病表证词,已经成为电子病历文本数据处理及后续相关研究的关键。

由于医疗领域数据记录标准不一,电子病历内容形式往往是复杂多样的非结构化文本数据,因此需要一定的数据挖掘手段对这些文本数据进行提取、分析。针对电子病历文本数据的特点,形成的数据提取、分析方法主要分成两类:(1)由专家对医疗文本中的数据进行标注,结合深度学习算法对数据进行训练,进而实现文本关键信息的提取。鉴于电子病历文本标注对专业能力的要求较高,对大量文本数据进行标注的实现难度较大,。(2)基于统计聚类方法实现文本数据的特征降维,进而实现文本关键信息的提取。这类方法常见模型有TF-IDF。TF-IDF是由词频(TF)和逆文档频率(IDF)两部分相乘得到的。其中,词频是文本中词的出现次数,逆文档频率反应了词的“重要性”,在语料库中包含某词的文档数越多,说明该次的“重要性”越小。

在确定目标的文本提取任务中,任务所关注的词是不同的,可能会出现词频低但在任务中却相对重要的词。在任务为电子病历文本数据疾病表征提取时,我们所关注的应是那些与疾病表征相关的词。如文本“患者于昨日开始出现头昏、呼吸不畅、轻微发热等不适症状,今晨出现好转,随来我院就诊。”文本中词频最高的是“出现”(2次),但任务所关注的词应该是“头昏”(1次)、“呼吸不畅”(1次)、“发热”(1次),这样与疾病表征相关的词。面对这样的情况,TF-IDF模型算法很难有效提取出疾病表征词。

发明内容

本发明的目的在于提供一种基于词义加权TF-IDF疾病表征词提取方法,提出一种适用于电子病历文本疾病表征词提取的算法模型以解决上述背景技术中提出的问题。

为实现上述目的,本发明提供如下技术方案:一种基于词义加权TF-IDF疾病表征词提取方法,包括以下步骤:

(1)数据预处理。

去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中非动词、名词、形容词和副词词性的其他词。

(2)结合电子病历特点,构建本地任务词库。其中,本地词库分为任务相关词库和非任务相关词库。

(3)计算文本词义特征加权权重值。

词义加权权重值计算分三种情形:

A、词在任务相关词库中,词义加权权重值pho的计算公式为:pho=c1

B、词在非任务相关词库中,词义加权权重值计算公式为:pho=c2

C、词不在本地词库中,对于未收录在本地词库中的词,从文档的语义相关性推算词义加权权重值。

(4)统计词频,计算逆文档频率,形成TF-IDF计算模型,并将词义权重引入模型,形成MW-TF-IDF模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三峡大学,未经三峡大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110915839.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top