[发明专利]一种基于词共现的中药处方向量空间模型方法及装置有效
申请号: | 201810288330.3 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108647236B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 袁锋;陈阳;陈守强;赵丽丽;常晓玮 | 申请(专利权)人: | 山东管理学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 杨哲 |
地址: | 250000*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词共现 中药 处方 向量 空间 模型 方法 装置 | ||
1.一种基于词共现的中药处方向量空间模型方法,其特征在于,该方法包括:
预处理中药处方数据,保留药方与相应证型对应关系,构建药方事务集;
所述预处理中药处方数据包括:对中药处方数据中的同义词、近义词和错别字进行修订;
根据预处理中药处方数据中药方与相应证型对应关系,构建中药方剂药对,并根据中药方剂药对构建药方事务集;
扫描整个药方事务集,计算各个中药频率以及药对的词共现频率,并根据此计算药对词共现的支持度和置信度;
当药对词共现的支持度和置信度大于对应预设阈值时,将该药对加入共现词集合,直至遍历事务集;
将共现词集合中属于中药处方药对库的药对构建语义向量空间模型,具体为:
将共现词集合R={r1,r2,...,rm}中的共现词与中药处方药对库T的药对进行比对;
若共现词集合中的共现词属于中药处方药对库,则将药对的修正权值置1,否则置0;
根据药对的修正权值、置信度、频率和逆文本频率的函数计算共现词的权值,并根据共现词权值,构建语义向量空间模型;
中医药方语料库D={d1,d2,...,dn}包含n个药方,在D在抽取出的词共现集合为R={r1,r2,...,rm},其中rm为抽取出的第m个词共现,则中医药方语料空间可以表示成一个m×n矩阵,其中行向量di={dri1,dri2,...,drim}代表一个药方,矩阵中的元素drij表示词共现的分布情况,如出现则相应的权值为drij,如不出现,则相应的权值为0;
药对的修正权值、置信度、频率和逆文本频率的函数为:
dri=TF×IDF×MI(ti,tj)×δ
其中,TF表示词共现的词频,IDF表示词共现的逆文本频率,MI(ti,tj)为confidence(ti,tj);
2.如权利要求1所述的方法,其特征在于,在本方法中,分别计算药方事务集中各个中药方剂药对的词共现频率以及中药方剂药对中单个中药的出现频率。
3.如权利要求1所述的方法,其特征在于,在本方法中,所述药对词共现的支持度为药对在整个事务集中共同出现频率。
4.如权利要求1所述的方法,其特征在于,在本方法中,所述药对词共现的置信度为药对的词共现频率的平方与中药方剂药对中单个中药的出现频率乘积的比。
5.如权利要求1所述的方法,其特征在于,在本方法中,构建所述共现词集合的具体方法为:
分别判断药对词共现的支持度和置信度与其对应预设阈值的大小关系;
当药对词共现的支持度和置信度大于对应预设阈值时,将该药对加入共现词集合;否则,继续遍历事务集;直至整个药方事务集遍历完毕;
构建共现词集合。
6.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行根据权利要求1-5中任一项所述的方法。
7.一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令用于执行根据权利要求1-5中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东管理学院,未经山东管理学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810288330.3/1.html,转载请声明来源钻瓜专利网。