[发明专利]电子装置、医疗文本实体命名的识别方法及存储介质有效
申请号: | 201710929637.2 | 申请日: | 2017-10-09 |
公开(公告)号: | CN107808124B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 赵清源;吕梓燊;韦邕;徐亮;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 装置 医疗 文本 实体 命名 识别 方法 存储 介质 | ||
1.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的医疗文本实体命名识别系统,所述医疗文本实体命名识别系统被所述处理器执行时实现如下步骤:
A、利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
B、利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
C、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
D、根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称;
实体的类别包括药品规格实体、包装实体、药品名称实体、身体部位实体、健康状况实体,预先设置的实体标记规则根据不同的实体类别进行相应的设置。
2.如权利要求1所述的电子装置,其特征在于,所述预先确定的切字规则包括:
将所述待识别医疗文本中的中文字符进行全角转半角,将所述待识别医疗文本的文档编码转换为UTF-8,对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。
3.如权利要求2所述的电子装置,其特征在于,所述预先训练的第一CRF模型的训练过程包括如下步骤:
从预先确定的数据库中获取第一预设数量的医疗文本,并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个所述医疗文本的单字序列进行人工标记,以标记出各个所述医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集;
根据第一训练样本集训练所述第一CRF模型,以得到预先训练的第一CRF模型。
4.如权利要求3所述的电子装置,其特征在于,所述预先训练的第二CRF模型的训练过程包括如下步骤:
利用预先设置的语料库及预设的实体标记规则确定所述第一训练样本集中的各个所述医学术语对应的标记序列,以获得由各个所述医学术语对应的标记序列构成的第二训练样本集;
根据所述第二训练样本集训练所述第二CRF模型,以得到预先训练的第二CRF模型。
5.如权利要求4所述的电子装置,其特征在于,所述预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。
6.一种医疗文本实体命名识别方法,其特征在于,所述方法包括如下步骤:
S1、利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
S2、利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
S3、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
S4、根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称;
实体的类别包括药品规格实体、包装实体、药品名称实体、身体部位实体、健康状况实体,预先设置的实体标记规则根据不同的实体类别进行相应的设置。
7.如权利要求6所述的医疗文本实体命名识别方法,其特征在于,所述预先确定的切字规则包括:
将所述待识别医疗文本中的中文字符进行全角转半角,将所述待识别医疗文本的文档编码转换为UTF-8,对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710929637.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带视觉识别卡片的讲故事机器人
- 下一篇:车辆检索方法及装置