[发明专利]问诊正则表达式生成方法、装置、设备及存储介质在审
申请号: | 202110482326.2 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113191141A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 周尚思 | 申请(专利权)人: | 康键信息技术(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/332;G06F16/36;G06K9/46;G06K9/62;G16H50/20 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问诊 正则 表达式 生成 方法 装置 设备 存储 介质 | ||
本发明涉及数据处理技术领域,公开了一种问诊正则表达式生成方法、装置、设备及存储介质。通过从采集到的标注数据中提取出病症特征,基于病症特征构建出共现矩阵,从共现矩阵中选择出组合频率较高的特征组合作为与诊断结果对应的特征组合,然后将选择出来的特征组合进行向量化处理,最后基于向量化后的特征组合生成正则表达式,通过这样的方式实现正则表达式的自动生成,其利用的疾病知识图谱模型对标注数据中进行病症特征的提取,避免了人为提取是产生的理解偏差而导致最后生成的表达式对诊断结果的识别不够精准的现象。此外,本发明还涉及区块链技术,标注数据可存储于区块链中。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种问诊正则表达式生成方法、装置、设备及存储介质。
背景技术
随着当代信息时代的高速发展,每天有大量的信息数据产生和需要处理。尤其是在智能医疗领域预检、分诊、诊断过程中,由于模型分类的不足以及难以解决的疑难病症,需要更严谨准确的识别,而在一些医疗场景中通过公采用了正则表达式来对问诊者的问诊信息进行识别以实现对问诊者症状的诊断,但是目前所使用的正则表达式主要是通过人工撰写的方式来生成,传统的人工撰写正则表达式的方式,需要按照“查看语料→判断语料中关键词→编写词库→撰写正则式”的步骤,流程繁多,且人力查看语料的效率较低。
另外在基于规则的语义识别方面,需要人工撰写大量的语料和添加词库,耗费人力且低效,完全依靠人工撰写正则表达式无法及时、准确地处理每天新增的信息数据,并且人工撰写正则表达式对工作人员的要求较高。
发明内容
本发明的主要目的在于解决现有的正则表达式生成方式生成正则表达式的精准度较低的技术问题。
本发明第一方面提供了一种问诊正则表达式生成方法,所述问诊正则表达式生成方法包括:获取多个问诊数据和对应的诊断结果,并基于所述诊断结果对对应的问诊数据进行标注,得到表达式生成样本集;利用预设的疾病知识图谱识别模型,对所述表达式生成样本集中的每个样本进行病症特征的提取,生成每个样本的特征集;根据所有样本的特征集生成共现矩阵,并计算所述共现矩阵中各病症特征之间的组合频率;筛选所述组合频率中满足预设值的病症特征组合进行向量化处理,并基于向量化后的特征组合生成对应的正则表达式。
可选的,在本发明第一方面的第一种实现方式中,所述基于所述诊断结果对对应的问诊数据进行标注,得到表达式生成样本集包括:根据所述诊断结果,从预设的诊断标签表中查询出与所述诊断结果对应的标签;确定与所述诊断结果对应的问诊数据,利用中文标记算法对所述问诊数据中的每个字设置上所述标签的标记,得到标记数据;根据所述标签对所有所述标记数据进行分类,生成多个标记数据子集,其中所述分类为将所有所述标记数据中标签相同的进行合并,得到一个标记数据子集;将多个标记数据子集生成表达式样本集。
可选的,在本发明第一方面的第二种实现方式中,所述将多个标记数据子集生成表达式样本集包括:根据中文语法规则对每个标记数据子集中的标记数据进行单独分析,确定所述标记数据子集的主体内容和非主体内容;利用分词工具将所述非主体内容从对应的标记数据子集中的标记数据中去除,直到所有标记数据子集完成去除非主体内容后,生成表达式样本集。
可选的,在本发明第一方面的第三种实现方式中,所述根据中文语法规则对每个标记数据子集中的标记数据进行单独分析,确定所述标记数据子集的主体内容和非主体内容包括:根据中文语法规则对每个标记数据子集中的标记数据进行分词处理,得到所述标记数据子集的字词及对应的词性;根据语法规则和所述标记数据子集中的字词和对应的词性,对所述标记数据子集中的标记数据进行句式进行分析,得到所述标记数据子集的句式结构;根据所述句式结构,提取出所述标记数据子集中每个标记数据的主体内容和非主体内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于康键信息技术(深圳)有限公司,未经康键信息技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110482326.2/2.html,转载请声明来源钻瓜专利网。