[发明专利]问诊模板的匹配方法、装置、设备及存储介质在审
申请号: | 202210212308.7 | 申请日: | 2022-03-04 |
公开(公告)号: | CN114566294A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 赵建双 | 申请(专利权)人: | 康键信息技术(深圳)有限公司 |
主分类号: | G16H80/00 | 分类号: | G16H80/00;G06K9/62 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问诊 模板 匹配 方法 装置 设备 存储 介质 | ||
1.一种问诊模板的匹配方法,其特征在于,所述方法包括:
获取用户提供的主诉信息;所述主诉信息包括所述用户的身体状况信息和不适症状信息;
将所述主诉信息与每种问诊模板的正则表达式进行匹配,将匹配成功的正则表达式所对应的问诊模板,确定为目标问诊模板;
向所述用户提供所述目标问诊模板;所述目标问诊模板用于所述用户填写病症表现信息;
其中,每种所述问诊模板的正则表达式通过下述方式得到:获取所述问诊模板对应的样本集合;基于所述样本集合的样本属性信息,得到初始表达式;基于预设的更新算法更新所述初始表达式和所述样本集合,直至满足第一指定条件,得到所述问诊模板的正则表达式。
2.根据权利要求1所述的方法,其特征在于,获取所述问诊模板对应的样本集合的步骤,包括:
获取训练语料集;所述训练语料集中包括多组训练预料,每组所述训练预料中包括主诉信息、模板名称和所属科室;
从所述训练语料集中获取所述问诊模板的模板名称对应的第一训练语料,将所述第一训练语料作为正样本;
从所述训练语料集中获取除所述问诊模板的模板名称以外的模板名称对应的第二训练语料,将所述第二训练语料作为负样本;
将所述正样本和所述负样本作为所述问诊模板对应的样本集合。
3.根据权利要求1所述的方法,其特征在于,基于所述样本集合的样本属性信息,得到初始表达式的步骤,包括:
对所述样本集合中的主诉信息进行分词处理,得到多个文本词;
针对每个所述文本词,基于所述文本词的词义,以及所述文本词在样本集合中的出现频率,确定所述文本词的权重;
统计所述多个文本词之间的出现位置的关联关系;
根据所述样本集合中的多个文本词、每个所述文本词的权重、以及多个文本词之间的出现位置的关联关系,生成初始表达式。
4.根据权利要求3所述的方法,其特征在于,基于所述文本词的词义,以及所述文本词在样本集合中的出现频率,确定所述文本词的权重的步骤,包括:
基于预设的同义词表,对所述多个文本词进行归一化操作,将同义的文本词划分为同一类,得到每个所述文本词的词义类型;
基于每个所述文本词的词义类型,通过词频和逆文档频率的统计方式,得到每个文本词的权重。
5.根据权利要求3所述的方法,其特征在于,统计所述多个文本词之间的出现位置的关联关系的步骤,包括:
针对所述多个文本词之间的任意两个文本词,统计所述任意两个文本词之间的共现参数;所述共现参数包括共现频率、平均间距、最小间距和最大间距信息;
基于所述任意两个文本词之间的共现参数,生成所述多个文本词之间的共现矩阵;在所述共现矩阵中,每个矩阵位置上包括一个共现参数,所述共现参数为该矩阵位置对应的两个文本词之间的共现参数。
6.根据权利要求1所述的方法,其特征在于,基于预设的更新算法更新所述初始表达式和所述样本集合,直至满足第一指定条件,得到所述问诊模板的正则表达式的步骤,包括:
对所述初始表达式进行交叉变异,得到多个变异表达式;
基于预设条件从多个变异表达式中筛选最优表达式;
删除所述样本集合中符合所述最优表达式的正样本,生成不符合所述最优表达式的新的正样本,得到更新后的所述样本集合;
继续执行基于所述样本集合的样本属性信息,得到初始表达式的步骤,直至满足指定条件,停止循环,得到所述问诊模板的正则表达式;其中,所述第一指定条件包括:循环次数达到次数阈值,或者所述正样本在所述样本集合中的占比满足预设占比阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于康键信息技术(深圳)有限公司,未经康键信息技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210212308.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:钎杆用中空钢热轧方法、中空钢及热轧机
- 下一篇:发动机气缸盖、发动机及汽车