[发明专利]一种利用二进制提取、识别、归类文件的系统在审
申请号: | 202210174166.X | 申请日: | 2022-02-24 |
公开(公告)号: | CN114564444A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 汪路;祝林杰;其他发明人请求不公开姓名 | 申请(专利权)人: | 朗森特科技有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/13;G06F16/14;G06F16/178;G16H10/00 |
代理公司: | 南京文宸知识产权代理有限公司 32500 | 代理人: | 林有娣 |
地址: | 225000 江苏省扬*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 二进制 提取 识别 归类 文件 系统 | ||
1.一种利用二进制提取、识别、归类文件的系统,其特征在于:包括数据获取模块、识别模块、提取模块、归类模块和新数据库;
所述数据获取模块用于获取医疗系统内部医疗数据库的二进制数据包;
所述识别模块用于识别所述获取模块获取二进制数据包的数据信息;
所述提取模块用于提取所述识别模块识别的二进制数据包的数据信息;
所述归类模块用于对所述提取模块提取的数据信息进行归类;
所述新数据库用于存储经新数据结构处理之后的数据信息。
2.一种利用二进制提取、识别、归类文件的方法,应用于权利要求1所述的一种利用二进制提取、识别、归类文件的系统,其特征在于:具体包括以下步骤:
S1、利用数据获取模块获取医疗系统内部医疗数据库的二进制数据包;
S2、利用识别模块和提取模块对获取的所述二进制数据包进行识别,并提取所述二进制数据包中的数据信息;
S3、利用归类模块对提取的所述数据信息进行归类处理;
S4、将归类的数据包按照统一数据结构进行储存,建立新数据库。
3.根据权利要求2所述的一种利用二进制提取、识别、归类文件的方法,其特征在于:所述S1中获取所述二进制数据包时,同步获取所述二进制数据包在医疗系统中所属的类目,并生成数据标签。
4.根据权利要求2所述的一种利用二进制提取、识别、归类文件的方法,其特征在于:所述S2中所述数据信息的提取具体为:根据识别的所述二进制数据包,提取所述二进制数据包中的数据信息,并根据所述数据信息中出现的数据词频,提取多个关键词。
5.根据权利要求2所述的一种利用二进制提取、识别、归类文件的方法,其特征在于:所述S3中所述数据信息归类的具体步骤包括:
S301、利用Sharksearch算法对S2中提取的所述数据信息与所述数据标签进行相关度分析;
S302、判断所述数据标签与S2中提取的所述数据信息之间的相关程度是否达到设定的相关率;
S3021、若所述数据标签与S2中提取的所述数据信息之间的相关程度达到设定的相关率,以所述数据标签建立新的归类分类标签;
S3022、若所述数据标签与S2中提取的所述数据信息之间的相关程度未达到设定的相关率,重新设定所述数据信息的归类分类标签。
6.根据权利要求5所述的一种利用二进制提取、识别、归类文件的方法,其特征在于:所述S3022中所述数据信息的归类分类标签的重新设定包括:
S3031、利用Sharksearch算法对S2中提取的所述数据信息与关键词进行相关度分析;
S3032、以每个所述关键词的相关率作为关键词在所述数据信息中的权重;
S3033、根据每个所述关键词在所述数据信心中的权重和在所述数据信息中出现的词频,计算每个所述关键词的相符值;
S3033、通过每个所述关键词的相符值之间的对比,以最高的相符值对应的所述关键词建立新的归类分类标签。
7.根据权利要求2所述的一种利用二进制提取、识别、归类文件的方法,其特征在于:所述S4中新数据库的建立具体包括:
S401、预定数据结构模板;
S402、将归类之后的数据包按照S401中的所述数据结构模板进行统一处理;
S403、将处理之后的数据包按照归类分类标签进行存储,从而建立新数据库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朗森特科技有限公司,未经朗森特科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210174166.X/1.html,转载请声明来源钻瓜专利网。