[发明专利]一种肿瘤专病数据库构建系统、方法、电子设备和介质在审
申请号: | 202011026999.9 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112185572A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 许永超;魏博;马素芬;骆佳俊;李力行;凌少平 | 申请(专利权)人: | 志诺维思(北京)基因科技有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/36;G06F40/126;G06F40/216;G06F40/232;G06F40/242;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 荣颖佳 |
地址: | 102200 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 肿瘤 数据库 构建 系统 方法 电子设备 介质 | ||
1.一种肿瘤专病数据库构建系统,其特征在于,包括:
数据拆分模块,用于将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
数据预处理模块,用于对所述待结构化提取的文本信息进行预处理;
模型预测模块,用于利用命名实体识别模型对预处理后的文本信息进行预测;
字典标注模块,用于对预处理后的文本信息进行字典标注;
数据合并模块,用于对预测结果和字典标注结果进行数据合并;
数据封装模块,用于将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
指标归一化模块,用于对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
结构化数据存储模块,用于将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
2.根据权利要求1所述的系统,其特征在于,所述数据预处理模块具体用于:对所述待结构化提取的文本信息进行包括全半角转换、特殊符号转换和噪音过滤中至少一项的预处理。
3.根据权利要求1所述的系统,其特征在于,所述模型预测模块包括:
训练单元,用于利用历史病理文本报告训练命名实体识别模型,并采用BIOES标注模式进行标注;
预测单元,用于利用命名实体识别模型对预处理后的文本信息进行预测,得到包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的预测结果。
4.根据权利要求1所述的系统,其特征在于,所述字典标注模块包括:
字典构建单元,用于构建字典;
信息提取单元,用于通过所述字典和正则表达式的方式提取包括文本内容、标签、在文本中的开始位置和在文本中的结束位置的字典标注结果。
5.根据权利要求1所述的系统,其特征在于,所述数据合并模块具体用于:当所述预测结果和字典标注结果不一致时,基于第一接口和第二接口的取值确定采纳所述预测结果或字典标注结果。
6.根据权利要求1所述的系统,其特征在于,所述数据封装模块包括:
切分单元,用于将数据合并后的文本信息按照嵌套层级的对应标签进行切分;
第一整理单元,用于按照关键词和取值一一对应的原则对切分结果进行整理;
第二整理单元,用于针对需要成对出现的指标,采用最短向右滑动的策略搜索左侧最近的文本内容作为成对出现的结果;
冗余单元,用于对需要进行数据冗余的指标和取值进行重复存储;
封装单元,用于对整理后的文本信息与所述基础文本信息进行数据封装。
7.根据权利要求1所述的系统,其特征在于,所述指标归一化模块包括:
标准化单元,用于构建标准化字典,利用所述标准化字典对数据封装后的文本信息进行标准化;
纠错单元,用于利用最长公共子序列算法和TF-IDF算法返回指定字符串最相似的字符串,以对指定字符串进行纠错;
推理单元,用于基于特定的业务需求,结合已有的知识图谱进行推理。
8.一种肿瘤专病数据库构建方法,其特征在于,包括:
将获取的原始肿瘤专病病理文本拆分为基础文本信息和待结构化提取的文本信息;
对所述待结构化提取的文本信息进行预处理;
利用命名实体识别模型对预处理后的文本信息进行预测;
对预处理后的文本信息进行字典标注;
对预测结果和字典标注结果进行数据合并;
将数据合并后的文本信息与所述基础文本信息按照预设规则进行数据封装;
对数据封装后的文本信息进行指标归一化处理,得到结构化病理文本;
将所述结构化病理文本存储到数据库中,生成肿瘤专病数据库。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求8所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求8所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于志诺维思(北京)基因科技有限公司,未经志诺维思(北京)基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011026999.9/1.html,转载请声明来源钻瓜专利网。