[发明专利]一种中文电子病历的命名实体类别标注方法与系统在审

专利信息
申请号: 202110179056.8 申请日: 2021-02-09
公开(公告)号: CN113035303A 公开(公告)日: 2021-06-25
发明(设计)人: 杜金莲;许言;金雪云;苏航;王丹 申请(专利权)人: 北京工业大学
主分类号: G16H10/60 分类号: G16H10/60;G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06F16/33
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 中文 电子 病历 命名 实体 类别 标注 方法 系统
【说明书】:

发明公开了一种中文电子病历的命名实体类别标注方法与系统,本发明主要解决如何基于联合神经网络模型在多分类问题下更准确地对中文电子病历中的命名实体进行识别和标注。主要包括:获取中文词语的词向量表示、基于HmapCNN模型对实体的结构化特征进行预提取、基于双向LSTM模型提取实体的上下文序列特征、基于CRF进行实体的序列标注,得到最终标注结果。本发明对模型进行进一步封装,设计开发基于B/S架构的交互系统,提供了对用户友好的图形化展示界面,便于对模型的使用和对结果的展示和导出等处理。

技术领域

本发明属于自然语言处理,是一种中文电子病历的命名实体类别标注方法及系统。具体指基于HmapCNN-BiLSTM-CRF对实体进行特征提取和类别标注。

背景技术

电子医疗病历能够电子化存储病人的终生健康状态和病、医疗史,是医疗领域在信息化时代发展的必然趋势。对中文电子病历的文本挖掘工作能够有效利用信息,为临床诊断、治疗提供数据准确访问、警示和辅助决策的功能。基于中文电子病历的命名实体类别标注工作作为其中的重要一环,对实体间关系提取、医疗知识推理等工作有重要意义。

目前应用于中文电子病历的命名实体类别标注方法可归类为基于词典和规则、基于机器学习和基于深度学习三种。

基于字典和规则的方法是命名实体识别类别标注中最早使用的方法。此类方法极度依赖命名实体库和手工规则的制定,需要领域内的专业人士人工地生成模板。当实体库内容足够覆盖文本中的实体或规则编写能精确反映语言现象时,这些方法的性能要超过绝大多数其他方法,同时需要付出的代价也急剧升高。

基于机器学习的方法将命名实体识别作为分类和序列标注问题,利用大规模的语料库训练标注模型。常用的机器学习模型有隐马尔可夫模型、最大熵模型、支持向量机、条件随机场等。此类方法较为依赖特征工程,标注数据和特征定义的质量优劣会直接影响标注的结果。

随着深度学习技术的发展,神经网络模型和深度学习方法在NLP领域的任务上展现出优秀的问题解决能力。诸多神经网络模型如NN/CNN-CRF、RNN-CRF、LSTM-CRF相继问世,这种不依赖于特征系统建设而是基于数据驱动、端到端一体的框架开始被广泛应用。

目前基于深度学习的命名实体类别标注方法是主流,虽然此类方法展现出了优越的性能,但是在中文电子病历命名实体识别领域还面临着诸多难题。电子病历自身带有结构多样化、专业性强等特点,对其所包含实体种类的划分粒度会对从文本中提取到信息的全面性、有效性起到关键作用,而实体类别数量的增加,又势必会造成类别之间的混淆或冗余情况,导致所使用深度学习模型的性能和标注的准确率下降。如何全面地对实体类别进行划分,以及联合多种神经网络模型、充分发挥各自优势对实体进行更准确的识别和标注是目前急需解决的问题。

发明内容

本发明针对中文电子病历命名实体类别划分不全面和多类别标注问题下神经网络模型实体标注准确率有限的问题,提供了一种基于HmapCNN-BiLSTM-CRF联合模型的中文电子病历命名实体类别标注方法及系统,一定程度解决了单一模型对于多类别标注问题特征提取和识别准确率有限的问题。

第一部分,本发明提供一种中文电子病历命名实体类别标注方法。实体的类别标签共11种,类别名称和对应标注如图1所示。

方法的技术方案步骤如下:

S1、通过word2vec工具结合CTB 6.0(Chinese Treebank 6.0)语料库得到每个中文实体的词向量表示;

S2、将词向量输入至HmapCNN模型进行实体的前后缀等构词特征进行提取,在池化层采用半数最值平均池化,选取半数个具有较大特征值的待采样点计算特征值的均值作为池化结果fhmap(v),计算公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110179056.8/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top