[发明专利]一种基于词义加权TF-IDF疾病表征词提取方法在审
申请号: | 202110915839.8 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113807090A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 余肖生;沈胜;张合欢 | 申请(专利权)人: | 三峡大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F40/216;G06F40/30;G16H10/60 |
代理公司: | 武汉高得专利代理事务所(普通合伙) 42268 | 代理人: | 杨如增 |
地址: | 443002 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词义 加权 tf idf 疾病 表征 提取 方法 | ||
1.一种基于词义加权TF-IDF疾病表征词提取方法,其特征在于,包括以下步骤:
(1)数据预处理。
去除文本中的标点符号等特殊字符;使用分词工具对文本数据进行分词处理,并获取分词结果中词对应的词性;去除数据中非动词、名词、形容词和副词词性的其他词。
(2)结合电子病历提取任务的特点,构建本地任务词库。其中,本地词库分为任务相关词库和非任务相关词库。
(3)计算文本词义特征加权权重值。
词义加权权重值计算分三种情形:
A、词在任务相关词库中,词义加权权重值pho的计算公式为:pho=c1;
B、词在非任务相关词库中,词义加权权重值计算公式为:pho=c2;
C、词不在本地词库中,对于未收录在本地词库中的词,从文档的语义相关性推算词义加权权重值。
(4)统计词频,计算逆文档频率,形成TF-IDF计算模型,并将词义权重引入模型,形成MW-TF-IDF模型。
引入词义加权的TF-IDF模型计算公式为:MW-TF-IDF=pho*TF-IDF;其中,MW-TF-IDF为引入词义加权的TF-IDF模型。
(5)模型运行,获取疾病表征词。
2.根据权利要求1所述的一种基于词义加权TF-IDF疾病表征词提取方法,其特征在于,所述步骤(2)中本地任务词库包括两类:
A、任务相关词库,该词库主要包括电子病历中与疾病相关的词;
B、非任务相关词库,该词库主要包括电子病历中可能出现的与疾病无关的词。
3.根据权利要求1所述的一种基于词义加权TF-IDF疾病表征词提取方法,其特征在于,所述步骤(3)中C情况:语义相关性,即在同一文本中出现的词共同揭示了同一主题,具有较高的语义相似性;
语义相关性的特点形成的非词库中词的词义加权权重值加权计算公式为:pho=(n1c1+n2c2)/(n1+n2);其中,n1,n2分别为在任务相关词库和非任务相关词库的词的个数,c1与c2需根据提取任务的特点进行取值,一般有c1:c23。
4.根据权利要求3所述的一种基于词义加权TF-IDF疾病表征词提取方法,其特征在于,所述取值分别为c1=1.8、c2=0.2,则词义特征加权计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三峡大学,未经三峡大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110915839.8/1.html,转载请声明来源钻瓜专利网。