[发明专利]基于标签属性和特征增强的病案文本ICD9代码自动分配方法在审
申请号: | 202111202974.4 | 申请日: | 2021-10-15 |
公开(公告)号: | CN113901805A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 洪旭东 | 申请(专利权)人: | 长三角信息智能创新研究院 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/242;G06F40/30;G06F16/35;G06Q10/10;G06N3/04;G06N3/08 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 董杰 |
地址: | 241000 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标签 属性 特征 增强 病案 文本 icd9 代码 自动 分配 方法 | ||
本发明公开一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法。将ICD9代码看成标签,其对应的文本描述作为标签属性,通过对标签属性和病案文本的语义编码获得标签属性特征及病案文本中每个词语的语义特征;为每个标签设置一个相关内容提取向量和标签语义向量,分别利用提取向量从病案文本中提取相关内容及语义特征,并利用共现关系,对提取到的相关特征进行特征增强;利用关注机制,针对不同标签,对提取到的多个相关内容语义特征、标签属性和语义特征自适应融合,得到最终的相关内容语义与标签语义表示;将相关内容语义特征与标签语义相比较,得到分类结果,并根据ICD9代码之间的层次关系,进行逐层负采样、参数训练和预测。
技术领域
本发明涉及一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法。
背景技术
病案文本的内容是病人在医疗过程中的诊疗记录。其中,ICD9代码对应的是疾病和手术,一个病人在一次诊疗过程中可能会有多个疾病并经历多个手术。病案文本ICD9代码自动分配,是为病案文本自动分配相应的ICD9 代码。其中,一个病案文本可以被分配多个ICD9代码。
现有方法中,大多将每个ICD9代码看成一个标签,将病案文本ICD9 代码自动分配看成文本多标签分类问题,逐一判断每个ICD9代码与病案文本是否相关。比如,第一种方法中,为每个案ICD9代码设置1个相关内容提取向量,1个语义向量。针对每个ICD9代码,利用内容提取向量,从病案文本中提取相关内容获得其语义表示,与相应ICD9代码的语义向量进行比较,得到分类结果。此外其还对ICD9代码描述文本进行了语义编码,训练时让该编码结果与语义向量尽量接近。在测试时,针对未在训练集中出现的ICD9代码使用该编码的结果作为语义向量。第二种方法中,首先对ICD9 代码的描述文本进行编码,得到ICD9代码的内容提取向量,在此基础上进一步结合ICD9代码之间的共现和层次关系得到ICD9代码的语义向量,然后再针对每个ICD9代码进行相关内容提取和分类。第三种方法中,首先将 ICD9描述文本及共现关系的编码结果作为相关内容提取向量,额外还为每个ICD9代码定义了一个相关内容提取向量;然后针对每个ICD9代码,使用两个向量同时从病案文本中提取相关内容获得其语义特征表示并进行拼接;最后将拼接结果与相应的ICD9代码语义向量相比较,获得分类结果,在分类时其还利用了ICD9代码的层次结构,从上到下逐层进行分类,前一层的分类结果是后一层分类的依据。
但是,首先,由于病案文本的描述信息,即标签属性,对于从病案文本中提取相关内容、ICD9的代码的语义表示,都具有重要作用。但ICD9代码的描述中有限的内容可能不够全面准确的表示ICD9代码的含义,需要额外定义相关内容提取向量和ICD9代码语义向量,并分别与它们配合,才能更加准确的进行相关内容提取和ICD9代码语义表示。上述方法中只有第三种在提取病案文本相关内容时考虑了该情况,在ICD9代码语义表示时所有方法都没有考虑。
其次,不同ICD9代码,即不同疾病和手术,之间彼此关联。要判断要给病案文本是否对应一个ICD9代码,相关ICD9代码在病案文本中对应的内容至关重要。现有方法都只利用ICD9代码之间的关系,利用ICD9代码的标签属性,彼此进行特征增强,没有针对不同ICD9代码提取到的相关内容特征,进行彼此的特征增强。
再其次,ICD9代码在训练数据集中呈现明显的长尾分布现象,有的ICD9 代码对应的训练数据很少,参数难以学习,如果减少参数学习过程中对训练数据的依赖,现有方法都没有考虑。
最后,对不同ICD9代码,标签属性、特征增强的作用大小不同。例如一些训练数据很少的ICD9代码,通过训练数据很难获得ICD9代码的准确语义,则需要更多的标签属性信息;有些ICD9代码的描述文本,与实际数据的差别非常大,则标签属性的作用就很小;一些ICD9代码则需要更多与其他ICD9代码之间的关系,才能得到准确的分类结果。需要根据ICD9代码的具体含义对这些方面的信息进行自适应的融合,现有方法都没有考虑。尽管方法3针对所有ICD9代码,对分别通过标签属性和内容提取向量得到的相关内容语义特征表示,但是其只采用了简单拼接的方式。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长三角信息智能创新研究院,未经长三角信息智能创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111202974.4/2.html,转载请声明来源钻瓜专利网。