[发明专利]基于LDA主题模型的中医药数据挖掘方法有效
申请号: | 201310276021.1 | 申请日: | 2013-07-01 |
公开(公告)号: | CN103365978A | 公开(公告)日: | 2013-10-23 |
发明(设计)人: | 姜晓红;严海明;商任翔;吴朝晖;陈英芝 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州裕阳专利事务所(普通合伙) 33221 | 代理人: | 应圣义 |
地址: | 310027 浙江省杭州市浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lda 主题 模型 中医药 数据 挖掘 方法 | ||
技术领域
本发明涉及中医药信息检索领域,特别涉及一种基于LDA主题模型的中医药数据挖掘方法。
背景技术
本发明涉及机器学习领域内主题模型的相关内容,主要有向量空间模型,奇异值分解与LSA,概率隐含语义分析pLSA,潜在狄利克雷分配LDA等。
向量空间模型被广泛应用在信息检索领域,最初由Salton在TREC项目中使用BOW(Bag Of Words)模型,即文档中单词具有可交换性(Exchangeability)来刻画单词和文本的关系。在他的模型中,单词的语义是独立于文本的,每个单词是单词空间中的一个维度,用这样的方法可以描述整个语料库(文档的集合)。
潜在语义分析(Latent Semantic Analysis)就是在文档和单词之间引入一个隐含语义层,原有的文档-单词关系变成了文档-隐含语义-单词。它使用奇异值分解(SVD,singular value decomposition)来挖掘这个层隐含的关系。
类似于LSA,概率隐含语义分析(pLSA,Probability Latent Semantic Analysis)也在文档-单词之间引入了一个隐含语义空间,不过pLSA是用概率模型来描绘的。在pLSA中,文本是由共现矩阵表达,即(d,w)对。其中(di,wj)表示文档di和单词wj共同出现,即文档标号为i的文档里面出现了单词j。这里需要强调的是Bag-Of-Words模型忽略掉文档里面单词出现次序,语料库里面的文档的次序默认也是忽略的。
潜在狄利克雷分配LDA是一种层次贝叶斯模型。它的概率图模型如图1所示。图中M表示文档的总数目,N是一个文档中的单词数目。α是每个文档的主题分布的狄利克雷先验参数,β是每个主题的单词分布的狄利克雷先验参数,即P(w|z);θ是语料库中的每个文档与T个主题的多项分布(Multinomial Distribution)。
可以看出LDA是一个三层贝叶斯概率模型,它和PLSA最大的区别是增加了对主题的混合权重θ引进了Dirichlet先验,用一个超参数(即参数的参数)α来产生参数θ。
由于中医药处方/药物数据具有其特殊性:中医药处方/药物成分记录不完全符合BOW模型,因此采用上述方法对现有的中药处方进行信息检索无法准确地得到中药处方/药物数据,因此,需要开发一种可以进一步准确地挖掘处方/药物数据的方法。
发明内容
本发明针对现有方法无法有效地得到中医药处方中隐含的关系信息的缺点,提供了一种新型的基于LDA主题模型的中医药数据挖掘方法。
为实现上述目的,本发明可采取下述技术方案:
基于LDA主题模型的中医药数据挖掘方法,包括以下具体步骤:
1)先在LDA模型中确定处方-主题和主题-药剂两组先验,处方-主题和主题-药剂分别由超参数α和β确定,使用AS方式对两组先验进行先验假设,所述AS方式为:处方-主题分布采用非对称的先验,主题-药剂分布采用对称的先验;
2)确定LDA模型中的主题数目;
3)采用Gibbs采样方法对上述LDA模型进行求解;
4)生成LDA模型的语义RDF文档,所述语义RDF文档包括一个四元组集合,所述四元组包括主体,谓词,客体,权重,将LDA模型的结果映射至四元组,并用语义RDF文档进行表示;
5)将药剂和处方进行关联,建立处方-主题-药剂的可视化结构网络G,该结构网络G由顶点集合V和边集合E组成,即G=(V,E),顶点集合V是包含处方、主题和药剂的本体的集合,边集合E是主题和药剂之间的关系的集合,其中,建立可视化结构网络G的步骤包括:对于语义RDF文档中的四元组集合中的每一个四元组,如果该四元组的权重高于预设的概率阈值p,则将该四元组加入所述可视化结构网络G中,将该四元组的主体和客体并入顶点集合V,将该四元组的谓词并入边集合E,当全部四元组均加入所述可视化结构网络G后,即得到最终的中医药主题模型网络图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310276021.1/2.html,转载请声明来源钻瓜专利网。