[发明专利]医药影印件的信息提取方法和系统有效
申请号: | 202010657780.2 | 申请日: | 2020-07-09 |
公开(公告)号: | CN111783710B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 常帅东;周日贵 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06F16/35;G06F40/211;G06V10/82;G06N3/0442;G06N3/0464 |
代理公司: | 上海元好知识产权代理有限公司 31323 | 代理人: | 章丽娟;周乃鑫 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医药 影印件 信息 提取 方法 系统 | ||
1.一种医药影印件的信息提取方法,其特征在于,包含:
步骤S1、将医药影印件文件转换成待识别电子文件;
步骤S2、采用光学字符识别方法对所述待识别电子文件进行字符识别,得到电子文档和特征信息;
步骤S3、根据所述特征信息对所述电子文档进行模糊分类;
步骤S4、对经模糊分类处理的电子文档根据其所属的类别进行第一次信息提取,得到初步提取结果;
步骤S5、对所述初步提取结果进行纠错处理得到有效的电子文档;
步骤S6、根据预设信息提取条件,对所述有效的电子文档进行第二次信息提取,得到关键信息;
步骤S7、根据所述关键信息,对经所述有效的电子文档进行分类,得到分类结果。
2.如权利要求1所述的医药影印件的信息提取方法,其特征在于,还包括:
步骤S8、显示和/或存储所述分类结果。
3.如权利要求2所述的医药影印件的信息提取方法,其特征在于,所述步骤S1包括:提供待识别的医药影印件文件,扫描所述医药影印件文件,得到所述待识别电子文件;所述待识别电子文件为PDF格式文件;所述待识别电子文件为若干个,在执行所述步骤S2之前,将若干个所述待识别电子文件的尺寸调整为统一尺寸,根据图像的灰度值设置阈值,以裁剪每一所述待识别电子文件的空白部分。
4.如权利要求3所述的医药影印件的信息提取方法,其特征在于,所述步骤S2包括:采用预先训练好的第一神经网络对所述待识别电子文档进行字符识别,所述第一神经网络包括:卷积神经网络、循环神经网络和联接时间分类;
所述卷积神经网络用于对所述待识别电子文档进行特征向量提取,得到特征向量序列;
所述循环神经网络对其接收到的所述特征向量序列进行计算得到预测标签分布;
所述联接时间分类对所述预测标签分布进行翻译得到所述电子文档并输出。
5.如权利要求4所述的医药影印件的信息提取方法,其特征在于,所述步骤S3包括:
步骤S3.1、选择所述特征信息中的位于待识别电子文档的特定位置的标题作为第一判断依据;根据所述第一判断依据对所述待识别电子文件进行模糊分类;若采用所述第一判断依据对所述待识别电子文件进行模糊分类操作失败,则进入步骤S3.2;
步骤S3.2、选择在所述医药影印件文件预先提取的字段作为第二判断依据;根据所述第二判断依据对所述待识别电子文件进行模糊分类。
6.如权利要求5所述的医药影印件的信息提取方法,其特征在于,对经模糊分类处理的电子文档被分为以下类别:药品说明书类、药品生产许可证类、药品GMP证书类、药品再注册批件类和药品进口许可证类。
7.如权利要求6所述的医药影印件的信息提取方法,其特征在于,所述步骤S5包括:
步骤S5.1、采用语言模型对所述电子文档进行文字拼写错误纠正,并输出第一纠正电子文档;
步骤S5.2、采用seq2seq模型对所述第一纠正电子文档进行语法错误纠正,得到第二纠正电子文档;
步骤S5.3、采用所述语言模型对所述第二纠正电子文档进行语句检查,得到所述的有效的电子文档;
所述步骤S6包括:采用预先训练好的第二神经网络对经所述有效的电子文档进行第二次信息提取,得到所述关键信息;
所述第二神经网络包括卷积神经网络、循环神经网络、单隐藏层前馈神经网络和条件随机场;
所述卷积神经网络用于根据接收到的所述有效的电子文档,将该所述有效的电子文档中的每一句子进行编码,得到所有所述句子的句子编码向量;
所述循环神经网络用于根据接收到的每一所述句子编码向量提取与该句子对应的上下文句子编码向量,形成上下文句子编码向量序列;
所述单隐藏层前馈神经网络用于根据上下文句子编码向量序列转换为与所述句子相对应的概率向量;
所述条件随机场用于根据所述概率向量计算出每个待识别句子所属标签的概率值,概率值最高的标签为所述关键信息;
所述步骤S7包括:所述分类结果包括以下几类:药品说明书类、药品生产许可证类、药品GMP证书类、药品再注册批件类和药品进口许可证类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010657780.2/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置