[发明专利]基于深度语义信息表示的中文临床医疗实体识别方法有效
申请号: | 201711278996.2 | 申请日: | 2017-12-06 |
公开(公告)号: | CN107977361B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 汤步洲;石雪;刘增健;陈清财;王晓龙 | 申请(专利权)人: | 哈尔滨工业大学深圳研究生院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/242;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市添源知识产权代理事务所(普通合伙) 44451 | 代理人: | 黎健任 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 语义 信息 表示 中文 临床 医疗 实体 识别 方法 | ||
1.一种基于深度语义信息表示的中文临床医疗实体识别方法,其特征在于:所述方法采用深度神经网络模型,整体上分为5层:(1)输入层,(2)CNN层,(3)双向LSTM层,(4)Attention层,(5)输出层;所述方法包括:
训练时,首先用单标签或多标签表示方法对包含中文临床医疗实体的句子进行表示,然后采用以下步骤进行模型训练:
S1、采用常用的字词分布式表示学习算法在大量医疗领域相关的文本上训练得到字向量分布式表示;
S2、从垂直网站和/或医疗业务系统中自动抽取大规模医疗实体构成临床领域词典,把词典中的字进行偏旁部首拆分,抽取并统计得到带有不同类型临床医疗实体语义信息的偏旁部首,根据偏旁部首给每一个字赋予一个临床实体类型语义表示向量,进行随机初始化;
S3、将步骤S1和S2得到的分布式向量进行拼接形成融合了中文临床医疗领域偏旁信息的汉字深度语义表示;
S4、选取以当前字为中心的上下文窗口,用CNN得到字的上下文局部语义信息表示,并作为LSTM层的输入;
S5、利用双向LSTM获取临床医疗文本中句子的全局语义信息表示,具体为:
1)将融合了临床医疗领域汉字构造特点的字表示向量和CNN所获取的以字为中心的局部语义信息表示进行拼接作为双向LSTM的输入,记为xt,表示句子中第t个汉字的深度语义表示;
2)输入汉字深度语义表示序列x1,x2…xn经正向和反向LSTM网络处理得到两组状态输出序列h1,h2…hn和h’n,h’n-1…h’1,将两组状态输出序列进行合并,得到[h1,h’1]、[h2,h’2]…[hn,h’n],对第t个汉字而言,其全局语义信息表示为[ht,h’t];
S6、利用attention机制,通过计算当前字与句子中其他字的相似度,获取句子中其他字对当前字的语义贡献和权重,找到句子中与当前字显著相关的有用信息,并将attention向量与当前字向量进行拼接,得到当前字上下文局部语义信息和所在句子全局语义信息的深度表示;
S7、输入一个中文医疗领域的句子,通过上述步骤S1-S6的处理,得到了其深度语义表示序列,以该深度语义表示序列作为输入,临床医疗实体表示标签序列作为输出,利用序列标注算法进行建模,并对融合了中文临床医疗领域偏旁信息的汉字深度语义表示进行调整;
测试时,通过查表得到步骤S3中的汉字深度语义表示,然后依次按照步骤S4、S5和S6得到当前字上下文局部语义信息和所在句子全局语义信息的深度表示,最后将句子的深度语义表示序列输入到训练得到的模型中进行预测得到标签序列并进行临床医疗实体还原。
2.根据权利要求1所述的方法,其特征在于:当采用单标签表示时,采用如下规则进行还原:
(1)如果有标记为H的子序列,同一字句内所有标注为D的子序列与标记为H的子序列进行合并;
(2)如果没有标记为H的子序列,所有标注为D的子序列进行合并;
当采用多标签表示时,不存在表示歧异,直接进行还原。
3.根据权利要求1所述的方法,其特征在于:所述方法利用卷积神经网络对汉字所在医疗文本句子中的上下文局部语义信息进行表示,主要包含如下步骤:
1)对医疗文本句子中的每一个字选取一个固定大小的上下文窗口;
2)固定卷积核的大小和数量对每个字的上下文窗口进行卷积操作,在卷积的过程中,对窗口内的每一个字赋予一个相对位置相关的深度表示;
3)对每一个卷积核得到的特征向量通过池化操作进行降采样,所述池化操作包括最大值池化、均值池化;其中,最大值池化即对每个卷积核得到的特征向量取其最大值,均值池化即对每个卷积核得到的特征向量取其平均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711278996.2/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置