[发明专利]一种基于中文电子病历的实体识别方法在审
申请号: | 201810304901.8 | 申请日: | 2018-04-08 |
公开(公告)号: | CN108628824A | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 闫凤麒;张贝贝;陆明名 | 申请(专利权)人: | 上海熙业信息科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G16H10/60;G16H50/70 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 201802 上海市嘉定区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子病历 实体识别 中文 文本 词频 字频 语料库标注 单字 人工标注 医学词典 章节信息 复杂度 核心词 语料库 准确率 构建 聚类 向量 标注 医疗 统计 | ||
1.一种基于中文电子病历的实体识别方法,其特征在于,所述方法包括:
步骤1、利用收集到的医学词典使用半自动标注方法对中文电子病历进行标注;
步骤2、利用分词器Jieba中文分词和中科院的NLPIR进行分词,其词、词性和上下文信息构成实体识别的基本特征;
步骤3、将无格式电子病历文本文件转化为xml格式文件,提取章节名信息;
步骤4、统计分析整理疾病、症状、检查和治疗的核心词词库,提取每个词的核心词特征;
步骤5、用开源工具Word2Vector计算每个词的词向量,根据词向量用k-means算法进行聚类,获取词聚类特征,与步骤3获得的章节信息特征、步骤4获得的核心词特征构成实体识别的扩展特征;
步骤6、将上述步骤2获得的基本特征和步骤5获得的扩展特征构成的特征向量输入已训练好的条件随机场分类器,抽取测试的电子病历中的实体。
2.根据权利要求1所述的方法,其特征在于,步骤1中利用半自动标注方法对中文电子病历进行标注,方法步骤具体包括:
步骤1.1、收集医学词典,将其整理为疾病词库、症状词库、检查词库、治疗词库;
步骤1.2、使用高精度的反向自动匹配算法对中文电子病历进行自动标注;
步骤1.3、医院若干名(实施例两名)全科医生进行人工核对、查漏补缺;
以上经历步骤1.2、步骤1.3两轮标注后得到标注好的中文电子病历语料库。
3.根据权利要求1所述的方法,其特征在于,步骤2中对中文电子病历文本进行分词工作,方法步骤具体包括:
步骤2.1、将以上步骤1.1收集的医学词典加入分词器的用户字典;
步骤2.2、使用分词器对中文电子病历进行分词,分词后的词和词性以及上下文信息构成了实体识别的基本特征;
4.根据权利要求1所述的方法,其特征在于,提取中文电子病历的扩展特征,方法步骤具体包括:
将中文电子病历无结构文本转化为结构化的xml文本,提取各个章节的名字,作为章节特征;
对标注的中文电子病例的实体以及收集到的医学词典进行统计分析得到各个实体核心词词典,根据此词典提取分词之后每个词的核心词特征;
以中文电子病历数据为训练集,利用Word2Vector计算词向量,用k-means进行聚类,将每个词的聚类结果计为词聚类特征;
整合以上章节特征、核心词特征以及词聚类特征为实体识别的扩展特征。
5.根据权利要求1所述的方法,其特征在于,步骤6利用条件随机场分类器进行训练和预测,根据以上结合基本特征和扩展特征为用于实体识别的特征集合,选取一部分电子病历用于训练条件随机场模型,剩下的电子病历用于测试。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海熙业信息科技有限公司,未经上海熙业信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810304901.8/1.html,转载请声明来源钻瓜专利网。