[发明专利]一种基于特征词袋模型的相似中药检索方法在审
申请号: | 201811073670.0 | 申请日: | 2018-09-14 |
公开(公告)号: | CN109378080A | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 张引;陈焱锋 | 申请(专利权)人: | 浙江大学 |
主分类号: | G16H70/40 | 分类号: | G16H70/40;G06F16/31;G06F16/36;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中草药 特征词 性味 检索 光学字符识别 相似性数据库 属性相似度 正则表达式 中药大辞典 空间向量 数字文本 信息提取 交集 相似度 信息化 信息库 本草 并集 向量 汇编 中药 学习 | ||
本发明公开了一种基于特征词袋模型的相似中草药检索方法。首先通过光学字符识别工具将“中国药典”、“中华本草”、“全国中草药汇编”、“中药大辞典”中的中草药信息转成数字文本。使用正则表达式方法将中草药的功效、性味、归经用法等信息提取出来,建立中草药信息库。分别根据中草药的功效、性味、归经、用法四个特征词袋生成中草药的功效、性味、归经、用法的词袋空间向量。最后根据特征词袋向量交集并集之商计算中草药间功效、性味、归经、用法属性的相似度,产生中草药相似性数据库。本发明可以根据属性相似度检索相关中草药,对中草药学习、促进中草药信息化意义重大。
技术领域
本发明涉及文本挖掘领域、中医药理论和echart可视化技术。特别是涉及一种基于特征词袋模型的相似中药检索方法。
背景技术
中医指中国传统医学,是研究人体生理、病理以及疾病的诊断和防治等的一门学科。它承载着中国古代人民同疾病作斗争的经验和理论知识,是在古代朴素的唯物论和自发的辨证法思想指导下,通过长期医疗实践逐步形成并发展成的医学理论体系。但是由于中医理论缺乏形式化表达和公众普及,人们很难直观的接触并理解中医药知识。鉴于此,本案发明人的关注点在于如何将中医的基本原理以一种直观的方式展示出来,从而推动中医药信息化的发展。
基于doc2vec的方法主要研究文本向量表示,将大段文本转化为一个特征向量,再计算两向量间的相似度。但该方法对于长文本效果显著,对于中药性味、归经、功效、用法属性的短文本无法很好的表示。
基于特征词袋模型的方法,通过设计好特征词袋,能够很好地捕捉短文本的语义特征,对相似度计算效果有很大提升。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于特征词袋模型的相似中药检索方法。
基于特征词袋模型的相似中药检索方法包括以下步骤:
1)应用光学字符识别工具对DjVu格式的“中国药典”、“中华本草”、“中药大辞典”、“全国中草药汇编”’进行光学字符识别处理,将纸质资料转换成数字化文本资料,然后运用正则表达式对数字化文本进行信息抽取,将不同中草药的信息、相同中草药的不同信息分离开来,建立中草药信息库;
2)结合中草药性味、归经、功效、用法各自特征词袋对中草药性味、中草药归经、中草药功效、中草药用法属性构建词袋向量;
3)利用中草药功效、归经、性味、用法属性的词袋向量,对中草药味、归经、功效、用法进行属性间相似度计算,得到中草药相似性数据库,同时建立数据索引;
4)用户先输入待查询的中草药名称,然后根据需要勾选相似属性选项,根据所输入的中草药名称和勾选的属性去查询相应的中草药相似性数据库表,检索出与输入中草药所需属性相似的中草药,并将检索结果通过echart可视化工具以关系图方式展示给用户。关系图中点击两两中药的连线可以查询中草药信息库,获取相似中草药性味、中草药归经、中草药功效、中草药用法属性详细信息。
所述中草药性味特征词袋为:带程度助词的“四气五味”共计25个,即:苦、平、无毒、辛、甘、酸、咸、凉、寒、微酸、热、涩、有毒、微凉、微寒、温、微辛、微温、有小毒、微苦、微甘、微涩、微咸、微热、微平,采用0-1量化构造词袋向量空间;
所述中草药归经特征词袋为:“十二腑脏经络”共计12个,即:肺、肾、脾、膀胱、小肠、肝、胃、大肠、心、胆、三焦、心包,采用0-1量化构造词袋向量空间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811073670.0/2.html,转载请声明来源钻瓜专利网。