[发明专利]一种面向中文医疗文本命名实体识别的方法有效
申请号: | 201911223532.0 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111079377B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 黄少滨;张柏嘉;申林山;李熔盛;李轶;余日昌;颜伟;邹长明 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/289;G06F40/295;G06F40/279;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 中文 医疗 文本 命名 实体 识别 方法 | ||
本发明属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。本发明通过自定义多个实体类别并依此构建医疗术语标注词典实现了对原始医疗文本中实体的自动标注,在此基础上提出了一种多粒度特征融合的模型,首次将汉字的部首作为实体识别和分类的特征应用到医疗实体识别的任务中,通过对医疗文本中的词、字、字的部首三个不同粒度上的特征进行提取、表示和融合,并利用ID‑CNN‑CRF算法训练模型,以实现对各类医疗文本中医疗实体的识别工作。该方法的优势在于能应用在电子病历、医学期刊等各类医疗文本中,同时能较好地解决医疗领域中不同实体之间长度差异较大的问题,并且对于未登录实体的识别有着很好的效果。
技术领域
本发明属于医学文本标注技术领域,具体涉及一种面向中文医疗文本命名实体识别的方法。
背景技术
医学文本的标注问题是自然语言处理在医学领域应用的一个热点问题。医学文本主要包括医学类的期刊和患者就医过程中所形成的电子病历,医学文本被认为是医疗信息系统的核心数据,因此使用计算机程序从这些文本中自动挖掘出这些知识就显得十分重要,该项技术主要涉及使用程序代码在医疗文本上应用自然语言处理(NLP)、信息抽取(包括实体和关系等)等相关技术进行分析和挖掘。
医疗命名实体识别是自然语言处理应用在医疗领域中的重要任务之一,传统的命名实体识别方法主要有基于规则匹配的算法和基于机器学习的算法两大类。然而传统的机器学习模型都存在着一个共同的缺点——对于特征提取的要求很高,需要事先对预处理的数据进行大量的人工标注才能训练出较好的效果,因此建模的成本很高。近年来,神经网络在通用领域的命名实体识别中展现出了很大的优势,主要表现在基于神经网络的深度学习方法具有很强的泛化性,本发明将利用卷积神经网络实现对医疗实体的识别工作。
相比于一般领域的命名实体,医学领域的NER任务通常面临着以下几个困难:
(1)医学领域通常包含更多的实体类别
(2)待识别和抽取的实体上下文中往往会存在很多不同的修饰和限定词,从而导致实体的边界难以划分和确定
(3)医学领域统一的命名规范,即待识别的实体可能存在很多种不同的表述方式
(4)不同实体间的长度可能存在巨大的差异,对于一些疾病名称和药品名称,实体的长度可能会很长,甚至某些实体可能包含10个以上的字符,而又存在部分实体仅包含2-3个字符,这显然加大了标注任务的难度。
发明内容
本发明的目的在于提供一种面向中文医疗文本命名实体识别的方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:输入待识别的中文医疗文本,进行预处理;
步骤1.1:根据标注词典对待识别的中文医疗文本数据中的每个句子S进行分词和标注,S=(w1,w2,…wi,…wn),wi表示对S进行分词之后,该句子中的第i个词语;
步骤1.2:对每个句子进行分字处理,S=(c1,c2…ci…cm),其中ci表示对句子S进行分字处理后的第i个字符;
步骤2:对于每一个句子S,对组成它的字、词、部首三个粒度的特征分别进行提取;
步骤2.1:词语特征的提取及向量表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911223532.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光钎链路测试装置
- 下一篇:一种基于神经网络的文本分类方法