[发明专利]基于LDA主题模型的中医药数据挖掘方法有效
申请号: | 201310276021.1 | 申请日: | 2013-07-01 |
公开(公告)号: | CN103365978A | 公开(公告)日: | 2013-10-23 |
发明(设计)人: | 姜晓红;严海明;商任翔;吴朝晖;陈英芝 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州裕阳专利事务所(普通合伙) 33221 | 代理人: | 应圣义 |
地址: | 310027 浙江省杭州市浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lda 主题 模型 中医药 数据 挖掘 方法 | ||
1.一种基于LDA主题模型的中医药数据挖掘方法,包括以下具体步骤:
1)先在LDA模型中确定处方-主题和主题-药剂两组先验,处方-主题和主题-药剂分别由超参数α和β确定,使用AS方式对两组先验进行先验假设,所述AS方式为:处方-主题分布采用非对称的先验,主题-药剂分布采用对称的先验;
2)确定LDA模型中的主题数目;
3)采用Gibbs采样方法对上述LDA模型进行求解;
4)生成LDA模型的语义RDF文档,所述语义RDF文档包括一个四元组集合,所述四元组包括主体,谓词,客体,权重,将LDA模型的结果映射至四元组,并用语义RDF文档进行表示;
5)将药剂和处方进行关联,建立处方-主题-药剂的可视化结构网络G,该结构网络G由顶点集合V和边集合E组成,即G=(V,E),顶点集合V是包含处方、主题和药剂的本体的集合,边集合E是主题和药剂之间的关系的集合,其中,建立可视化结构网络G的步骤包括:对于语义RDF文档中的四元组集合中的每一个四元组,如果该四元组的权重高于预设的概率阈值p,则将该四元组加入所述可视化结构网络G中,将该四元组的主体和客体并入顶点集合V,将该四元组的谓词并入边集合E,当全部四元组均加入所述可视化结构网络G后,即得到最终的中医药主题模型网络图。
2.根据权利要求1所述的基于LDA主题模型的中医药数据挖掘方法,其特征在于,还包括预处理步骤:将所有处方划分为T个主题,用θz表示每个主题z在药剂库V上的多项分布,用φd表示每个处方d对T个主题的多项分布,其中,处方d的生成方式包括:采样φd~Dir(α),对于处方中的每个药剂w,采样一个主题标签z~Multi(φd),并生成与该主题标签z相对应的w~Multi(θz),其中θ(.)~Dir(β),Dir表示狄利克雷分布,Multi表示多项分布。
3.根据权利要求1所述的基于LDA主题模型的中医药数据挖掘方法,其特征在于,所述步骤3还包括以下具体步骤:
预处理:进行中药处方文档转换,修改文档向量集合{w}使得得到{w′},其中重量(wm,n)为处方中药剂的重量,重量(dm)为每个处方的重量;
初始化:遍历每个中药处方文档中的每一个单词,对Zm,n采样,使得Zm,m=k~Multi(1/k),令文档-主题计数加1,令主题-单词计数加1,令文档-主题计数nm加1,令主题-单词计数nk加1;
Gibbs采样:遍历每个中药处方文档中的每一个单词,令计数nm、nk分别减1;令当前单词满足令计数分别加1;检查收敛性,如果收敛且未达到迭代次数上限,分别从参数集合Φ和Θ中读取参数;
其中,{w}为文档向量集合,K为主题数目,{nm},{nk}分别为计数统计及其计数和,{p(zi|.)}为条件概率数组,{z}为主题相关度集合,Φ、Θ分别为多项分布参数集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310276021.1/1.html,转载请声明来源钻瓜专利网。