[发明专利]医学实体信息的抽取方法、装置、存储介质及电子设备在审
申请号: | 201811624699.3 | 申请日: | 2018-12-28 |
公开(公告)号: | CN111444717A | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 凤博;郭潇宇 | 申请(专利权)人: | 天津幸福生命科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 301800 天津市宝坻*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医学 实体 信息 抽取 方法 装置 存储 介质 电子设备 | ||
本公开属于计算机技术领域,涉及一种医学实体信息的抽取方法、装置、计算机存储介质和电子设备。该方法包括:获取文本,对所述文本进行预处理以形成文本向量;将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。一方面通过多个不同的模型分别处理相同的文本向量,获取其中的医学实体信息,能够提高召回率和准确率;另一方面,通过精准提取医学实体信息能够提高文本的结构化,进而提高了电脑系统的处理效率,减少了人工标注实体和根据实体进行业务的时间消耗和成本消耗。
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种医学实体信息的抽取方法、医学实体信息的抽取装置、计算机可读存储介质以及电子设备。
背景技术
随着计算机科学领域和人工智能领域的蓬勃发展,命名实体识别成为自然语言处理领域中的一个重点研究问题。命名实体是目标文本中基本的信息元素,是正确理解目标文本的基础;命名实体识别是指从文本中识别出相关实体,并标注出其位置以及类型。
目前,对文本中的命名实体进行识别的方法主要是人工标注实体信息,基于规则和词典的方法、基于统计的方法或者是基于机器模型的方法进行实体识别,然而由于上述识别方法均存在相应的不足,使得实体信息抽取的召回率和准确率较低。以对保险理赔文本中的医学实体信息的抽取为例,人工标注的效率无法满足业务发展需求,而通过规则、词典、模型抽取实体信息时,对于同一医学实体可能存在多个不同的名称,不同的医务工作者在撰写医学文本时对同一医学实体可能采用不同的简称等情况,可能不能准确识别保险理赔文本中的医学实体信息,进而导致医学实体信息抽取的召回率和准确率较低。
因此,本领域需要一种新的医学实体信息的抽取方法和装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种医学实体信息的抽取方法、医学实体信息的抽取装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的医学实体信息提取的召回率和准确率低的问题。
根据本公开的一个方面,提供一种医学实体信息的抽取方法,包括:
获取文本,对所述文本进行预处理以形成文本向量;
将所述文本向量分别输入至多个不同的模型中,以获取各所述模型输出的医学实体信息;
将所述医学实体信息进行融合和去重处理,以获取目标医学实体信息。
在本公开的示例性实施例中,获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述文本的字符长度;
将所述文本的字符长度与第一预设值进行比较;
根据比较结果,去除字符长度小于所述第一预设值的第一文本,保留字符长度大于或等于所述第一预设值的第二文本;
将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量。
在本公开的示例性实施例中,在将所述第二文本进行编码,以对所述第二文本进行向量化,形成所述文本向量之前,所述获取文本,对所述文本进行预处理以形成文本向量,包括:
统计所述第二文本中的文字出现的频率,并将所述频率与第二预设值进行比较;
若存在频率大于或等于所述第二预设值的目标文字,则保留所述目标文字,删除所述第二文本中除所述目标文字之外的文字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津幸福生命科技有限公司,未经天津幸福生命科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811624699.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置