[发明专利]基于LDA主题模型的中医药数据挖掘方法有效

专利信息
申请号: 201310276021.1 申请日: 2013-07-01
公开(公告)号: CN103365978A 公开(公告)日: 2013-10-23
发明(设计)人: 姜晓红;严海明;商任翔;吴朝晖;陈英芝 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州裕阳专利事务所(普通合伙) 33221 代理人: 应圣义
地址: 310027 浙江省杭州市浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及中医药信息检索领域,公开了一种基于LDA主题模型的中医药数据挖掘方法,包括以下具体步骤:1)先在LDA模型中确定处方-主题和主题-药剂两组先验,处方-主题和主题-药剂分别由超参数α和β确定,使用AS方式对两组先验进行先验假设;2)确定LDA模型中的主题数目;3)采用Gibbs采样方法对上述LDA模型进行求解;4)生成LDA模型的语义RDF文档,将LDA模型的结果映射至四元组,并用语义RDF文档进行表示;5)将药剂和处方进行关联,建立处方-主题-药剂的可视化结构网络G。本发明的优点在于,适用于海量中药处方的处理和挖掘,并可以得到可视化的结构模型。
搜索关键词: 基于 lda 主题 模型 中医药 数据 挖掘 方法
【主权项】:
一种基于LDA主题模型的中医药数据挖掘方法,包括以下具体步骤:1)先在LDA模型中确定处方‑主题和主题‑药剂两组先验,处方‑主题和主题‑药剂分别由超参数α和β确定,使用AS方式对两组先验进行先验假设,所述AS方式为:处方‑主题分布采用非对称的先验,主题‑药剂分布采用对称的先验;2)确定LDA模型中的主题数目;3)采用Gibbs采样方法对上述LDA模型进行求解;4)生成LDA模型的语义RDF文档,所述语义RDF文档包括一个四元组集合,所述四元组包括主体,谓词,客体,权重,将LDA模型的结果映射至四元组,并用语义RDF文档进行表示;5)将药剂和处方进行关联,建立处方‑主题‑药剂的可视化结构网络G,该结构网络G由顶点集合V和边集合E组成,即G=(V,E),顶点集合V是包含处方、主题和药剂的本体的集合,边集合E是主题和药剂之间的关系的集合,其中,建立可视化结构网络G的步骤包括:对于语义RDF文档中的四元组集合中的每一个四元组,如果该四元组的权重高于预设的概率阈值p,则将该四元组加入所述可视化结构网络G中,将该四元组的主体和客体并入顶点集合V,将该四元组的谓词并入边集合E,当全部四元组均加入所述可视化结构网络G后,即得到最终的中医药主题模型网络图。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310276021.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top