[发明专利]一种基于概率主题模型的相似中药检索方法有效

专利信息
申请号: 201310074221.9 申请日: 2013-03-08
公开(公告)号: CN103177087A 公开(公告)日: 2013-06-26
发明(设计)人: 张引;魏宝刚;庄越挺;申晨;王李东;凌超 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 张法高
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 概率 主题 模型 相似 中药 检索 方法
【权利要求书】:

1.一种基于概率主题模型的相似中药检索方法,其特征在于包括以下步骤:

1)应用光学字符识别工具对DjVu格式的“中华人民共和国药典”、“中华本草”进行光学字符识别处理,将纸质资料转换成数字化文本资料,然后运用正则表达式对数字化文本进行信息抽取,将不同中草药的信息、相同中草药的不同信息分离开来,建立中草药信息库;

2)应用中草药分词系统对中草药信息库的中草药性味、中草药归经、中草药功效属性进行分词,去停用词,根据分词结果对中草药性味、中草药归经、中草药功效属性进行量化;

3)针对中草药功效属性应用概率主题模型方法,结合中草药性味、中草药归经的属性量化数据,对中草药从性味、归经、功效进行属性间相似度计算,得到中草药相似性数据库;

4)用户先输入待查询的中草药名称,然后根据需要勾选相似属性选项,根据所输入的中草药名称和勾选的属性去查询相应的中草药相似性数据库表,检索出与输入中草药所需属性相似的中草药,并将检索结果通过Flex技术以关系图的方式展示给用户,点击连线可以查询中草药信息库,获得相似中草药性味、中草药归经、中草药功效属性详细信息。

2.根据权利要求1所述的一种基于概率主题模型的相似中药检索方法,其特征在于:所述中草药的性味分词为:“四气五味”,即辛、甘、苦、酸、温、寒、咸、凉、热、涩、平、淡、毒,中草药的性味量化时要考虑程度差别,“微”取值0.2,“大”取值1,“小”取值0.3,使用量化后的值构造向量空间;

所述中草药的归经分词为:“十二腑脏经络”,即心经、肝经、脾经、肺经、肾经、胃经、大肠经、小肠经、膀胱经、胆经、心包经、三焦经,采用0-1量化构造向量空间;

所述中草药的功效分词时采用标点符号断句、二元切分的方法、0-1量化构造向量空间。

3.根据权利要求1所述的一种基于概率主题模型的相似中药检索方法,其特征在于:所述步骤3)包括:

(1)将疾病的描述跟医案中相关症状的描述分词,去停用词,表示成<word1><word1_count><word2><word2_count><word3><word3_count>...的格式,并以此构造为语料库;

(2)在语料库上执行Gibbs sampling算法,获得语料库中涉及的主题及每个单词在给定主题下的概率,在迭代抽样完成后,给定单词wi在主题tj下的概率P(wn|ti)定义如下:

P(wn|ti)=Ctiwn+βΣn=1NCtiwn]]>

其中是单词wn在主题ti下取样的次数,β为算法参数,在这里我们取β为0.01;

(3)使用TF-IDF方法构造功效的向量空间Vi,向量空间Vi中第j个值为

Vij=tfij×log(D/dfi)

其中D是语料库中文档的数目,dfi是单词wi出现的文档数目,tfij是单词wi出现在文档dj的数目;

(4)对于两个经过分词和去停用词处理的中草药功效文本di,dj,使用如下公式来获得辨识词集D(di),D(dj):

D(di)={w|wdi,wdj}]]>

D(dj)={w|wdj,wdi}]]>

(5)对于每一个主题ti,分别从两个中草药功效文本的辨识词集中找到在ti具有最大概率值的单词wm、wn,如果单词wm和wn的概率值大于规定的阈值0.1,用如下公式来修改中草药的功效文本d1、d2的向量空间和

vn(1)=vn(1)+vn(2)×P(wn|ti)]]>

vm(2)=vm(2)+vm(1)×P(wm|ti)]]>

其中P(wn|ti)是给定单词wn在主题ti下的概率;

(6)分别根据余弦系数计算中草药的功效-功效、中草药的性味-性味、中草药的归经-归经的相似度Sim(v(1),v(2)),

Sim(v(1),v(2))=v(1)·v(2)|v(1)||v(2)|]]>

(7)将中草药药对之间的功效-功效、性味-性味、归经-归经相似度归一化,

y=x-MinValueMaxValue-MinValue]]>

其中x、y表示转换前、后的值,MaxValue、MinValue分别为相应样本的最大值和最小值;

(8)算数平均得到中草药药对之间功效-性味的相似度,性味-归经的相似度,功效-归经的相似度,功效-性味-归经的相似度;

(9)将相似度大于指定阈值的中草药药对存入相应数据库表中,取阈值为0.5。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310074221.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top