[发明专利]电子装置、医疗文本实体命名的识别方法及存储介质有效
申请号: | 201710929637.2 | 申请日: | 2017-10-09 |
公开(公告)号: | CN107808124B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 赵清源;吕梓燊;韦邕;徐亮;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 装置 医疗 文本 实体 命名 识别 方法 存储 介质 | ||
本发明公开了一种电子装置、医疗文本实体命名识别方法及存储介质。首先,利用预先训练的第一CRF模型对待识别医疗文本进行识别,识别出待识别医疗文本中的医学术语,其次,利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别,识别出各个医学术语对应的标记序列,最后,根据预先确定的实体名称与标记序列的映射关系,确定各个标记序列包含的实体名称。这样,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体的识别的问题。
技术领域
本发明涉及医疗实体识别技术领域,尤其涉及一种电子装置、医疗文本实体命名的识别方法及存储介质。
背景技术
在近年来,随着网络和医疗信息技术的发展,互联网医疗逐渐兴起,医疗行业大数据也逐渐产生。人们开始探讨和学习如何利用大数据提高医药行业的经营管理及服务,例如,通过疗效对比得到最佳治疗路径,以提高临床医疗服务质量,分析临床试验数据和病人记录,确定药品更多的适应症和发现副作用等,以提高医学科研水平。而医药大数据的利用分析和挖掘的前提和基础之一是医疗文本中命名实体的识别,医疗文本中相关实体的识别是医疗大数据应用的基础工作。
目前,常见的实体识别技术有基于词表的医学实体识别和基于条件随机场的医学实体识别,然而基于词表的医学实体识别仅仅依靠术语库匹配,缺少上下文语境识别,且术语匹配存在较大局限性,比如对于药品来说,药品的厂家数量繁多,术语库可能难以一一涵盖。而已有的基于条件随机场的医学实体识别技术,缺少大数据语料库和语言规则的应用,使得模型不够完善,缺少基于语言学与医疗信息的规则,仅仅依靠模型,对数据的针对性不够强。因此,已有的实体识别方案并不能准确进行医疗文本中相关实体的识别。
发明内容
有鉴于此,本发明提出一种电子装置、医疗文本实体命名的识别方法及存储介质,能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。
首先,为实现上述目的,本发明提出一种电子装置,所述电子装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的医疗文本实体命名的识别系统,所述医疗文本实体命名的识别系统被所述处理器执行时实现如下步骤:
A、利用预先确定的切字规则对待识别医疗文本进行单字切分,确定所述待识别医疗文本的单字序列;
B、利用预先训练的第一CRF模型对所述单字序列进行识别,识别出所述单字序列中的医学术语;
C、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别,识别出各个所述医学术语对应的标记序列;
D、根据预先确定的实体名称与标记序列的映射关系,确定各个所述标记序列包含的实体名称。
进一步地,所述预先确定的切字规则包括:
将所述待识别医疗文本中的中文字符进行全角转半角,将所述待识别医疗文本的文档编码转换为UTF-8,对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注,根据标注结果将相邻数字的组合视为一个单字,将通用单位视为一个单字,将单个标点符号视为一个单字,以及将单个汉字视为一个单字,其中,所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。
进一步地,所述预先训练的第一CRF模型的训练过程包括如下步骤:
从预先确定的数据库中获取第一预设数量的医疗文本,并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分,获得各个医疗文本的单字序列;
基于预先确定的医学术语表,对各个所述医疗文本的单字序列进行人工标记,以标记出各个所述医疗文本的单字序列中的医学术语,并将非医学术语删除,以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710929637.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带视觉识别卡片的讲故事机器人
- 下一篇:车辆检索方法及装置