[发明专利]一种基于概率主题模型的相似中药检索方法有效
申请号: | 201310074221.9 | 申请日: | 2013-03-08 |
公开(公告)号: | CN103177087A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 张引;魏宝刚;庄越挺;申晨;王李东;凌超 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概率 主题 模型 相似 中药 检索 方法 | ||
技术领域
本发明涉及文本挖掘领域、中医药理论和Flex展示技术。特别是涉及一种基于概率主题模型的相似中药检索方法。
背景技术
中医指中国传统医学,是研究人体生理、病理以及疾病的诊断和防治等的一门学科。它承载着中国古代人民同疾病作斗争的经验和理论知识,是在古代朴素的唯物论和自发的辨证法思想指导下,通过长期医疗实践逐步形成并发展成的医学理论体系。但是由于中医理论缺乏形式化表达和公众普及,人们很难直观的接触并理解中医药知识。鉴于此,本案发明人的关注点在于如何将中医的基本原理以一种直观的方式展示出来,从而推动中医药信息化的发展。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于概率主题模型的相似中药检索方法。
基于概率主题模型的相似中药检索方法包括以下步骤:
1)应用光学字符识别工具对DjVu格式的“中华人民共和国药典”、“中华本草”进行光学字符识别处理,将纸质资料转换成数字化文本资料,然后运用正则表达式对数字化文本进行信息抽取,将不同中草药的信息、相同中草药的不同信息分离开来,建立中草药信息库;
2)应用中草药分词系统对中草药信息库的中草药性味、中草药归经、中草药功效属性进行分词,去停用词,根据分词结果对中草药性味、中草药归经、中草药功效属性进行量化;
3)针对中草药功效属性应用概率主题模型方法,结合中草药性味、中草药归经的属性量化数据,对中草药从性味、归经、功效进行属性间相似度计算,得到中草药相似性数据库;
4)用户先输入待查询的中草药名称,然后根据需要勾选相似属性选项,根据所输入的中草药名称和勾选的属性去查询相应的中草药相似性数据库表,检索出与输入中草药所需属性相似的中草药,并将检索结果通过Flex技术以关系图的方式展示给用户,点击连线可以查询中草药信息库,获得相似中草药性味、中草药归经、中草药功效属性详细信息。
所述中草药的性味分词为:“四气五味”,即辛、甘、苦、酸、温、寒、咸、凉、热、涩、平、淡、毒,中草药的性味量化时要考虑程度差别,“微”取值0.2,“大”取值1,“小”取值0.3,使用量化后的值构造向量空间;
所述中草药的归经分词为:“十二腑脏经络”,即心经、肝经、脾经、肺经、肾经、胃经、大肠经、小肠经、膀胱经、胆经、心包经、三焦经,采用0-1量化构造向量空间;
所述中草药的功效分词时采用标点符号断句、二元切分的方法、0-1量化构造向量空间。
所述步骤3)包括:
(1)将疾病的描述跟医案中相关症状的描述分词,去停用词,表示成<word1><word1_count><word2><word2_count><word3><word3_count>...的格式,并以此构造为语料库;
(2)在语料库上执行Gibbs sampling算法,获得语料库中涉及的主题及每个单词在给定主题下的概率,在迭代抽样完成后,给定单词wi在主题tj下的概率P(wn|ti)定义如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310074221.9/2.html,转载请声明来源钻瓜专利网。