[发明专利]一种基于中文电子病历的实体识别方法在审
申请号: | 201810304901.8 | 申请日: | 2018-04-08 |
公开(公告)号: | CN108628824A | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 闫凤麒;张贝贝;陆明名 | 申请(专利权)人: | 上海熙业信息科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G16H10/60;G16H50/70 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 201802 上海市嘉定区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于中文电子病历的实体识别方法,涉及医疗实体识别技术领域。针对目前国内缺少公开中文电子病历标注语料库的缺陷,本发明通过构建整理医学词典,提出了一种半自动语料库标注方法,节省了人工标注的复杂度。其次目前基于特征的电子病历实体识别方法大部分都是针对普通文本或者一般的电子病历文本,没有考虑到中文电子病历的特有特征。本发明提取的特征除了一般文本具有的基本特征外,还提取了中文电子病历特有的章节信息特征,通过对收集到的词典进行单字和词切分后统计字频和词频得到核心词特征加入扩展特征中,并且通过对词向量进行聚类把词与词之间的联系也加入了扩展特征,有效的提高了中文电子病历的实体识别准确率。 | ||
搜索关键词: | 电子病历 实体识别 中文 文本 词频 字频 语料库标注 单字 人工标注 医学词典 章节信息 复杂度 核心词 语料库 准确率 构建 聚类 向量 标注 医疗 统计 | ||
【主权项】:
1.一种基于中文电子病历的实体识别方法,其特征在于,所述方法包括:步骤1、利用收集到的医学词典使用半自动标注方法对中文电子病历进行标注;步骤2、利用分词器Jieba中文分词和中科院的NLPIR进行分词,其词、词性和上下文信息构成实体识别的基本特征;步骤3、将无格式电子病历文本文件转化为xml格式文件,提取章节名信息;步骤4、统计分析整理疾病、症状、检查和治疗的核心词词库,提取每个词的核心词特征;步骤5、用开源工具Word2Vector计算每个词的词向量,根据词向量用k‑means算法进行聚类,获取词聚类特征,与步骤3获得的章节信息特征、步骤4获得的核心词特征构成实体识别的扩展特征;步骤6、将上述步骤2获得的基本特征和步骤5获得的扩展特征构成的特征向量输入已训练好的条件随机场分类器,抽取测试的电子病历中的实体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海熙业信息科技有限公司,未经上海熙业信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810304901.8/,转载请声明来源钻瓜专利网。