[发明专利]基于LDA主题模型的中医药数据挖掘方法有效
申请号: | 201310276021.1 | 申请日: | 2013-07-01 |
公开(公告)号: | CN103365978A | 公开(公告)日: | 2013-10-23 |
发明(设计)人: | 姜晓红;严海明;商任翔;吴朝晖;陈英芝 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州裕阳专利事务所(普通合伙) 33221 | 代理人: | 应圣义 |
地址: | 310027 浙江省杭州市浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及中医药信息检索领域,公开了一种基于LDA主题模型的中医药数据挖掘方法,包括以下具体步骤:1)先在LDA模型中确定处方-主题和主题-药剂两组先验,处方-主题和主题-药剂分别由超参数α和β确定,使用AS方式对两组先验进行先验假设;2)确定LDA模型中的主题数目;3)采用Gibbs采样方法对上述LDA模型进行求解;4)生成LDA模型的语义RDF文档,将LDA模型的结果映射至四元组,并用语义RDF文档进行表示;5)将药剂和处方进行关联,建立处方-主题-药剂的可视化结构网络G。本发明的优点在于,适用于海量中药处方的处理和挖掘,并可以得到可视化的结构模型。 | ||
搜索关键词: | 基于 lda 主题 模型 中医药 数据 挖掘 方法 | ||
【主权项】:
一种基于LDA主题模型的中医药数据挖掘方法,包括以下具体步骤:1)先在LDA模型中确定处方‑主题和主题‑药剂两组先验,处方‑主题和主题‑药剂分别由超参数α和β确定,使用AS方式对两组先验进行先验假设,所述AS方式为:处方‑主题分布采用非对称的先验,主题‑药剂分布采用对称的先验;2)确定LDA模型中的主题数目;3)采用Gibbs采样方法对上述LDA模型进行求解;4)生成LDA模型的语义RDF文档,所述语义RDF文档包括一个四元组集合,所述四元组包括主体,谓词,客体,权重,将LDA模型的结果映射至四元组,并用语义RDF文档进行表示;5)将药剂和处方进行关联,建立处方‑主题‑药剂的可视化结构网络G,该结构网络G由顶点集合V和边集合E组成,即G=(V,E),顶点集合V是包含处方、主题和药剂的本体的集合,边集合E是主题和药剂之间的关系的集合,其中,建立可视化结构网络G的步骤包括:对于语义RDF文档中的四元组集合中的每一个四元组,如果该四元组的权重高于预设的概率阈值p,则将该四元组加入所述可视化结构网络G中,将该四元组的主体和客体并入顶点集合V,将该四元组的谓词并入边集合E,当全部四元组均加入所述可视化结构网络G后,即得到最终的中医药主题模型网络图。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310276021.1/,转载请声明来源钻瓜专利网。