[发明专利]一种用于异构系统的药品项目名称对照转译方法有效
申请号: | 201610234562.1 | 申请日: | 2016-04-15 |
公开(公告)号: | CN105956359B | 公开(公告)日: | 2018-06-05 |
发明(设计)人: | 陈杰 | 申请(专利权)人: | 陈杰 |
主分类号: | G16H70/40 | 分类号: | G16H70/40;G06Q40/08;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200072 上海市闸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明记载了一种用于异构系统的药品项目名称对照转译方法,包括六个步骤:数据提取及预处理、名称级联搜索、初步统计分词、回归全部预料库并再次分词、确定各分词的合理性以及量化组合分词的差异。使得本发明通过大数据挖掘分析,发现各个地区间三目录的差异,以此为出发点,构建各地各异构系统间的三目录差异特征库,建立可靠的药品项目名称匹配算法,有效替代传统的人工对照匹配三目录并解决异构系统间的三目录对照映射周期较长的问题,充分发挥大数据的价值,提高医疗数据流转效率;同时,也不需要专业的语法分词工具来对各个药品项目名称进行语义分析,从而降低了整个算法过程的复杂度。 | ||
搜索关键词: | 分词 异构系统 大数据 转译 预处理 差异特征 流转效率 名称匹配 数据提取 算法过程 医疗数据 映射周期 有效替代 语义分析 传统的 复杂度 构建 级联 算法 合理性 语法 匹配 搜索 量化 出发点 挖掘 回归 统计 分析 发现 | ||
【主权项】:
一种用于异构系统的药品项目名称对照转译方法,其特征在于,包括以下步骤:S1、数据提取及预处理:对于个别药品项目名称不规整或不规则的符号进行筛选;S2、名称级联搜索:通过余弦公式计算各组项目名称和对照名称的相似度,对大于0.7的对照关系组中的任意名称进行级联查询,拓展出更多的项目对照组,直到该组对照词间的相似度低于0.7为止;S3、初步统计分词:按频次排序,将频数小于1/8分位数的对应关系删去,减少不明显的对应关系干扰;同时,统计分析每组对照的连续相同的字符并插入固定分隔符,形成各组对照的初步分词结果;S4、回归全部预料库并再次分词:对于字符较长的,可以在该字符串的开头或结尾删除某个字符,如果删除后的字符串在整个预料库中的出现频率与删除前的频率没有发生明显的变化,则该步骤使得该字符串变得更具有原子性;但对于原子字符串,最低要求是具有至少两个字符;同时,对于单个字符的分词结果,拓宽字符长度,如果添加后的字符串在整个预料库中的出现频率与添加前的频率没有发生明显的变化,那么执行添加字符操作,合成新的分词结果;S5、确定各分词的合理性:采用TF‑IDF算法,判断各个分词是否普遍于整个预料库,量化每个药品项目名称下的各个分词结果的权重;S6、量化组合分词的差异:对于分词后的各个分词结果,需要按照一定的顺序组织,采用贝叶斯公式找到几组合理的分词结果组合以确定要被对照的药品项目名称具体符合哪种分词方式,从而准确对照该药品项目名称到现有预料库里的名称。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈杰,未经陈杰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610234562.1/,转载请声明来源钻瓜专利网。