[发明专利]一种利用二进制提取、识别、归类文件的系统在审
申请号: | 202210174166.X | 申请日: | 2022-02-24 |
公开(公告)号: | CN114564444A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 汪路;祝林杰;其他发明人请求不公开姓名 | 申请(专利权)人: | 朗森特科技有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/13;G06F16/14;G06F16/178;G16H10/00 |
代理公司: | 南京文宸知识产权代理有限公司 32500 | 代理人: | 林有娣 |
地址: | 225000 江苏省扬*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 二进制 提取 识别 归类 文件 系统 | ||
本发明涉及医疗文件数据处理技术领域,且公开了一种利用二进制提取、识别、归类文件的系统,包括数据获取模块、识别模块、提取模块、归类模块和新数据库;所述数据获取模块用于获取医疗系统内部医疗数据库的二进制数据包;所述识别模块用于识别所述获取模块获取二进制数据包的数据信息,该利用二进制提取、识别、归类文件的系统,可以通过获取医疗系统中医疗数据库的二进制数据包,识别、提取和归类医疗文件信息数据,同时可以按照预定的数据结构,对归类的数据信息进行同一数据结构处理,以实现数据信息的统一样式的前端输出,无需通过接口对接,可减少医院数据维护成本。
技术领域
本发明涉及医疗文件数据处理技术领域,具体为一种利用二进制提取、识别、归类文件的系统。
背景技术
文件归类是信息学和计算机科学中的一个技术路线。其任务是将一个文件分配到一个或者多个类别中。可以是通过人工分类完成,也可以是通过计算机算法实现。通过归类,可以统一数据结构,实现标准化的输出。
当前有大量医院所使用的医疗信息系统老旧,接口无法得到正常维护,并且有的医院由于更换厂商,会使病例、检查检验等数据的数据结构存在不规范的现象,导致数据显示不统一,会影响数据获取的效果。
发明内容
为实现以上利用二进制提取、识别、归类文件的系统目的,本发明通过以下技术方案予以实现:一种利用二进制提取、识别、归类文件的系统,包括数据获取模块、识别模块、提取模块、归类模块和新数据库;
所述数据获取模块用于获取医疗系统内部医疗数据库的二进制数据包;
所述识别模块用于识别所述获取模块获取二进制数据包的数据信息;
所述提取模块用于提取所述识别模块识别的二进制数据包的数据信息;
所述归类模块用于对所述提取模块提取的数据信息进行归类;
所述新数据库用于存储经新数据结构处理之后的数据信息。
一种利用二进制提取、识别、归类文件的方法,具体包括以下步骤:
S1、利用数据获取模块获取医疗系统内部医疗数据库的二进制数据包;
S2、利用识别模块和提取模块对获取的所述二进制数据包进行识别,并提取所述二进制数据包中的数据信息;
S3、利用归类模块对提取的所述数据信息进行归类处理;
S4、将归类的数据包按照统一数据结构进行储存,建立新数据库。
进一步的,所述S1中获取所述二进制数据包时,同步获取所述二进制数据包在医疗系统中所属的类目,并生成数据标签。
进一步的,所述S2中所述数据信息的提取具体为:根据识别的所述二进制数据包,提取所述二进制数据包中的数据信息,并根据所述数据信息中出现的数据词频,提取多个关键词。
进一步的,所述S3中所述数据信息归类的具体步骤包括:
S301、利用Sharksearch算法对S2中提取的所述数据信息与所述数据标签进行相关度分析;
S302、判断所述数据标签与S2中提取的所述数据信息之间的相关程度是否达到设定的相关率;
S3021、若所述数据标签与S2中提取的所述数据信息之间的相关程度达到设定的相关率,以所述数据标签建立新的归类分类标签;
S3022、若所述数据标签与S2中提取的所述数据信息之间的相关程度未达到设定的相关率,重新设定所述数据信息的归类分类标签。
进一步的,所述S3022中所述数据信息的归类分类标签的重新设定包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朗森特科技有限公司,未经朗森特科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210174166.X/2.html,转载请声明来源钻瓜专利网。