[发明专利]基于LDA主题模型的中医药数据挖掘方法有效

专利信息
申请号: 201310276021.1 申请日: 2013-07-01
公开(公告)号: CN103365978A 公开(公告)日: 2013-10-23
发明(设计)人: 姜晓红;严海明;商任翔;吴朝晖;陈英芝 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州裕阳专利事务所(普通合伙) 33221 代理人: 应圣义
地址: 310027 浙江省杭州市浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 lda 主题 模型 中医药 数据 挖掘 方法
【权利要求书】:

1.一种基于LDA主题模型的中医药数据挖掘方法,包括以下具体步骤:

1)先在LDA模型中确定处方-主题和主题-药剂两组先验,处方-主题和主题-药剂分别由超参数α和β确定,使用AS方式对两组先验进行先验假设,所述AS方式为:处方-主题分布采用非对称的先验,主题-药剂分布采用对称的先验;

2)确定LDA模型中的主题数目;

3)采用Gibbs采样方法对上述LDA模型进行求解;

4)生成LDA模型的语义RDF文档,所述语义RDF文档包括一个四元组集合,所述四元组包括主体,谓词,客体,权重,将LDA模型的结果映射至四元组,并用语义RDF文档进行表示;

5)将药剂和处方进行关联,建立处方-主题-药剂的可视化结构网络G,该结构网络G由顶点集合V和边集合E组成,即G=(V,E),顶点集合V是包含处方、主题和药剂的本体的集合,边集合E是主题和药剂之间的关系的集合,其中,建立可视化结构网络G的步骤包括:对于语义RDF文档中的四元组集合中的每一个四元组,如果该四元组的权重高于预设的概率阈值p,则将该四元组加入所述可视化结构网络G中,将该四元组的主体和客体并入顶点集合V,将该四元组的谓词并入边集合E,当全部四元组均加入所述可视化结构网络G后,即得到最终的中医药主题模型网络图。

2.根据权利要求1所述的基于LDA主题模型的中医药数据挖掘方法,其特征在于,还包括预处理步骤:将所有处方划分为T个主题,用θz表示每个主题z在药剂库V上的多项分布,用φd表示每个处方d对T个主题的多项分布,其中,处方d的生成方式包括:采样φd~Dir(α),对于处方中的每个药剂w,采样一个主题标签z~Multi(φd),并生成与该主题标签z相对应的w~Multi(θz),其中θ(.)~Dir(β),Dir表示狄利克雷分布,Multi表示多项分布。

3.根据权利要求1所述的基于LDA主题模型的中医药数据挖掘方法,其特征在于,所述步骤3还包括以下具体步骤:

预处理:进行中药处方文档转换,修改文档向量集合{w}使得得到{w′},其中重量(wm,n)为处方中药剂的重量,重量(dm)为每个处方的重量;

初始化:遍历每个中药处方文档中的每一个单词,对Zm,n采样,使得Zm,m=k~Multi(1/k),令文档-主题计数加1,令主题-单词计数加1,令文档-主题计数nm加1,令主题-单词计数nk加1;

Gibbs采样:遍历每个中药处方文档中的每一个单词,令计数nm、nk分别减1;令当前单词满足令计数分别加1;检查收敛性,如果收敛且未达到迭代次数上限,分别从参数集合ΦΘ中读取参数;

其中,{w}为文档向量集合,K为主题数目,{nm},{nk}分别为计数统计及其计数和,{p(zi|.)}为条件概率数组,{z}为主题相关度集合,ΦΘ分别为多项分布参数集合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310276021.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top