[发明专利]一种临床试验源数据自动校验方法有效
申请号: | 201810970722.8 | 申请日: | 2018-08-24 |
公开(公告)号: | CN109102844B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 刘禹;翟学雷;刘星宇 | 申请(专利权)人: | 北京锐客科技有限公司 |
主分类号: | G16H10/00 | 分类号: | G16H10/00;G16H70/00;G06F40/279;G06N3/04 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 韩新城 |
地址: | 100181 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 临床试验 数据 自动 校验 方法 | ||
本发明公开一种临床试验源数据自动校验方法,包括步骤:使用CTPN网络模型对获取的临床试验的源数据图像识别,确定文本区域,然后进行文本区域切割,切出每一行文本;对切出每一行文本进行垂直投影列切割,得到每一行文本的有效文本区域;将有效文本区域的集合依次输入经训练的CRNN网络,得到可变长序列识别结果,然后使用正则表达式提取出文本识别结果;对文本识别结果进行纠错,获得纠错结果;依据特征值集合逐一从纠错结果中提取特征值,与数据库中记录的标准特征值比对,对与标准特征值不符的提取的特征值,标志告警状态,形成错误提醒。本发明以CPTN和CRNN为核心进行临床试验源数据图像文字识别,进而实现自动化的数据校验。
技术领域
本发明涉及数据校验技术领域,具体涉及一种临床试验源数据自动校验方法。
背景技术
临床试验电子数据采集系统(EDC,Electric Data Capture system)适用于药物临床试验、医学随机对照试验和医学队列研究的核心信息化系统,其核心目的是用于记录受试者的信息,形成电子随访表单。对临床试验而言,最为核心的是数据准确性,录入过程中的人为失误是导致数据不准确的一个主要原因。为此,临床试验实施团队需要指派专门的数据审核员,进行源数据校验:对数据来源的原始纸质资料(化验单、病例记录、ICU监护记录/报告等)进行人工核查,比对电子记录与源数据的一致性,称为源数据校验(SDV,Source Data Validation)。SDV是保证临床试验数据准确性和数据质量的一项关键步骤。
目前的EDC系统,由于通常采用人工方式进行源数据校验,存在两个方面的问题:其一,耗时费力,审核员需要保持高度精神集中,逐一校验关键数据,工作量不亚于重新录入一遍数据;其二,无法保证质量,试验执行团队考虑人工成本、时间周期等因素,不能够进行全面的源数据校验,通常采用抽查的方式,无法全面保证数据质量。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种临床试验源数据自动校验方法,用于临床试验电子数据采集系统的源数据校验,其通过对原数据进行图像采集,自动校验核心数据(特征值)的准确性,降低人员开销,提升临床试验数据质量。
为实现本发明的目的所采用的技术方案是:
一种临床试验源数据自动校验方法,包括以下步骤:
S1,使用CTPN网络模型对获取的临床试验的源数据图像识别,确定文本区域,然后进行文本区域切割,切出每一行文本;对切出每一行文本进行垂直投影列切割,得到每一行文本的有效文本区域;
S2,将有效文本区域的集合依次输入经训练的CRNN网络,得到可变长序列识别结果,然后使用正则表达式提取出文本识别结果;
S3,对文本识别结果进行纠错,获得纠错结果;
S4,依据特征值集合逐一从纠错结果中提取特征值,并与数据库中记录的标准特征值比对,对与标准特征值不符的提取的特征值,标志告警状态,形成错误提醒。
步骤S3的对文本识别结纠错,获得纠错结果的步骤如下:
使用编辑距离算法在特征值词库中查找对应的特征词,获得初步纠错结果;
判断该初步纠错结果是否为唯一结果,若是,则将该初步纠错结果确定为最终的纠错结果,
否则,对由编辑距离算法获得的初步的纠错结果中的对每一个中文字符串,使用字形编码的方法,确定最终的纠错结果。
使用字形编码的方法,确定纠错结果的步骤如下:
先对初步的纠错结果集合中的中文字符串中的中文字符进行字形编码;
计算每个中文字符与数据库中标准字符间的字形编码距离,将所有中文字符间的字形编码距离相加而获得两个字符串间的整体距离,根据该串整体距离来确定纠错结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐客科技有限公司,未经北京锐客科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810970722.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置