[发明专利]医学实体识别方法、装置、介质及电子设备有效
申请号: | 202011437728.2 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112507703B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 艾杰 | 申请(专利权)人: | 医渡云(北京)技术有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/23;G06F16/36 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医学 实体 识别 方法 装置 介质 电子设备 | ||
本公开提供一种医学实体识别方法、医学实体识别装置、计算机可读介质及电子设备;涉及医学数据处理技术领域。该医学实体识别方法包括:通过医学知识库对医学文本数据进行实体标注,将包含标注的医学文本数据分为训练样本和测试样本;通过所述训练样本获取实体识别模型,并通过所述实体识别模型对所述测试样本进行识别,获取对于所述测试样本的识别结果;结合所述测试样本的识别结果以及所述测试样本包含的标注确定待更新医学实体,并利用确定出的待更新医学实体对所述医学知识库进行更新。本公开中的医学实体识别方法能够在一定程度上克服人工标注实体导致人力成本较高的问题,进而提升医学实体识别的效率。
技术领域
本公开涉及医学数据处理技术领域,具体而言,涉及一种医学实体识别方法、医学实体识别装置、计算机可读介质及电子设备。
背景技术
临床试验数据对于医学的进步具有巨大的意义,但大部分临床试验数据都为非结构化的文本,为了从大量非结构化的文本中读取到疾病的进展情况和不良反应症状等信息,需要人工进行大量阅读。随着计算机技术的发展,电子信息系统可以用于临床数据的查询、存储等场景中,在一定程度上缓解了人力成本,提高了数据的处理效率,但是要从文本中识别出有价值的信息,依然需要人工花费大量的时间来解读文本,识别效率低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种医学实体识别方法、医学实体识别装置、计算机可读介质及电子设备,能够在一定程度上克服医学文本识别花费人力成本较高的问题,进而提升医学文本的识别效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种医学实体识别方法,包括:
通过医学知识库对医学文本数据进行实体标注,将包含标注的医学文本数据分为训练样本和测试样本;
通过所述训练样本获取实体识别模型,并通过所述实体识别模型对所述测试样本进行识别,获取对于所述测试样本的识别结果;
结合所述测试样本的识别结果以及所述测试样本包含的标注确定待更新医学实体,并利用确定出的待更新医学实体对所述医学知识库进行更新。
在本公开的一种示例性实施例中,所述通过医学知识库对医学文本数据进行实体标注包括:
通过医学词典与正则表达式识别出所述医学文本数据中的第一医学实体;
将所述第一医学实体标注为目标标签。
在本公开的一种示例性实施例中,所述结合所述测试样本的识别结果以及所述测试样本包含的标注确定待更新医学实体包括:
从所述测试样本中提取出所述目标标签对应的第一医学实体,并提取所述识别结果中的第二医学实体;
对比第一医学实体以及所述第二医学实体,以获取所述第二医学实体中与所述第一医学实体不匹配的目标实体,将所述目标实体作为所述待更新医学实体。
在本公开的一种示例性实施例中,所述利用确定出的医学实体对所述医学知识库进行更新包括:
将所述待更新医学实体添加至所述医学词典中。
在本公开的一种示例性实施例中,将包含标注的医学文本数据分为训练样本和测试样本之后,还包括:
对所述训练样本的实体标注进行抽样验证,以获取所述实体标注的验证结果;
根据所述验证结果对所述训练样本的实体标注进行调整。
在本公开的一种示例性实施例中,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于医渡云(北京)技术有限公司,未经医渡云(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011437728.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金属焊接用夹具
- 下一篇:一种在可编程器件中节省功率的方法和系统