[发明专利]一种基于特征词袋模型的相似中药检索方法在审
申请号: | 201811073670.0 | 申请日: | 2018-09-14 |
公开(公告)号: | CN109378080A | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 张引;陈焱锋 | 申请(专利权)人: | 浙江大学 |
主分类号: | G16H70/40 | 分类号: | G16H70/40;G06F16/31;G06F16/36;G06F17/27 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中草药 特征词 性味 检索 光学字符识别 相似性数据库 属性相似度 正则表达式 中药大辞典 空间向量 数字文本 信息提取 交集 相似度 信息化 信息库 本草 并集 向量 汇编 中药 学习 | ||
1.一种基于特征词袋模型的相似中药检索方法,其特征在于包括以下步骤:
1)应用光学字符识别工具对DjVu格式的“中国药典”、“中华本草”、“中药大辞典”、“全国中草药汇编”’进行光学字符识别处理,将纸质资料转换成数字化文本资料,然后运用正则表达式对数字化文本进行信息抽取,将不同中草药的信息、相同中草药的不同信息分离开来,建立中草药信息库;
2)结合中草药性味、归经、功效、用法各自特征词袋对中草药性味、中草药归经、中草药功效、中草药用法属性构建词袋向量;
3)利用中草药功效、归经、性味、用法属性的词袋向量,对中草药性味、归经、功效、用法进行属性间相似度计算,得到中草药相似性数据库,同时建立数据索引;
4)用户先输入待查询的中草药名称,然后根据需要勾选相似属性选项,根据所输入的中草药名称和勾选的属性去查询相应的中草药相似性数据库表,检索出与输入中草药所需属性相似的中草药,并将检索结果通过echart可视化工具以关系图方式展示给用户;关系图中点击两两中药的连线可以查询中草药信息库,获取相似中草药性味、中草药归经、中草药功效、中草药用法属性详细信息。
2.根据权利要求1所述的一种基于特征词袋模型的相似中药检索方法,其特征在于所述步骤2)包括:
所述中草药性味特征词袋为:带程度助词的“四气五味”共计25个,即:苦、平、无毒、辛、甘、酸、咸、凉、寒、微酸、热、涩、有毒、微凉、微寒、温、微辛、微温、有小毒、微苦、微甘、微涩、微咸、微热、微平,采用0-1量化构造词袋向量空间;
所述中草药归经特征词袋为:“十二腑脏经络”共计12个,即:肺、肾、脾、膀胱、小肠、肝、胃、大肠、心、胆、三焦、心包,采用0-1量化构造词袋向量空间;
所述中草药功效特征词袋为:人工收集的功效短语共计151个,即:安神、安胎、拔毒、辟秽、补肺、补肝、补命门火、补脾、补脾胃、补气、补肾、补心、补虚、补血、补阳、除痹、除烦、催产、催吐、导滞、涤痰、调经、定痫、发汗、腐蚀、攻毒、固崩、固齿、固精、固脱、和胃、和血、和中、化斑、化湿、化痰、回乳、回阳、活血、健胃、降火、降逆、降气、接骨、截疟、解表、解毒、解蛇虫毒、解暑、开窍、宽胸、宽中、理气、利胆、利关节、利窍、利水、利咽喉、敛疮、敛肺、凉血、明目、排脓、排石、平喘、平肝潜阳、平肝熄风、破血、强筋骨、强心、清肺、清肝、清热、清头目、清心、清虚热、驱虫、祛风、祛寒、祛瘀、袪湿、软坚、润肠、润肺、润肤、润燥、散结、涩肠、升阳、生发、生肌、蚀赘疣、收敛、疏风、疏肝、舒筋、缩尿、通便、通经、通淋、通络、通乳、通阳、透疹、退黄、托毒、温肺、温化寒湿、温经、温中、乌须发、消疳积、消积、消痞、消痰、消翳、消瘿、消胀、消癥积、消肿、泄热、泻火、泻下、辛凉解表、辛温解表、行气、宣肺、养胃、养颜、益智、引火归原、燥湿、镇惊、止带、止呃、止汗、止痉、止咳、止痢、止呕、止痛、止泻、止血、止痒、重镇安神、逐水、逐饮、壮阳、壮腰膝、坠痰、滋阴,采用0-1量化构造词袋向量空间;
所述中草药用法特征词袋为:人工收集的用法、用量词语共计31个,即:捣、敷、嚼、敢、煅、研、烧、泡、冲、煎汤、浸酒、撒、掺、煎、熏、洗、煮、搽、酒炒、醋、油、酒、丸、散、剂、膏、汤、钱、两、g、分,采用0-1量化构造词袋向量空间。
3.根据权利要求1所述的一种基于特征词袋模型的相似中药检索方法,其特征在于:所述步骤3)包括:
(1)利用词袋向量间值为1的交集数量除以并集数量的方法计算任意两味中药在同一属性下的相似度,即中草药的功效-功效、中草药的性味-性味、中草药的归经-归经、中草药的用法-用法的相似度Sim(v1,v2):
Sim(v1,v2)=sum((v1 AND v2)==1)/sum((v1 OR v2)==1)
其中sum(x==1)为计算向量x中值为1的元素的数量,(v1 AND v2)为逻辑运算的与门,(v1 OR v2)为逻辑运算的或门;
(2)对任意一味中药,分别在性味、归经、功效、用法属性上计算相似度值在前100的中药药对存入相应的数据库表中;
(3)将生成的相似度表导入构建好的solr cloud搜索引擎平台,建立数据索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811073670.0/1.html,转载请声明来源钻瓜专利网。