[发明专利]基于LDA主题模型的中医药数据挖掘方法有效

申请号：	201310276021.1	申请日：	2013-07-01
公开（公告）号：	CN103365978A	公开（公告）日：	2013-10-23
发明（设计）人：	姜晓红;严海明;商任翔;吴朝晖;陈英芝	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州裕阳专利事务所(普通合伙) 33221	代理人：	应圣义
地址：	310027 浙江省杭州市浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及中医药信息检索领域，公开了一种基于LDA主题模型的中医药数据挖掘方法，包括以下具体步骤：1）先在LDA模型中确定处方-主题和主题-药剂两组先验，处方-主题和主题-药剂分别由超参数α和β确定，使用AS方式对两组先验进行先验假设；2）确定LDA模型中的主题数目；3）采用Gibbs采样方法对上述LDA模型进行求解；4）生成LDA模型的语义RDF文档，将LDA模型的结果映射至四元组，并用语义RDF文档进行表示；5）将药剂和处方进行关联，建立处方-主题-药剂的可视化结构网络G。本发明的优点在于，适用于海量中药处方的处理和挖掘，并可以得到可视化的结构模型。
搜索关键词：	基于 lda 主题模型中医药数据挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于LDA主题模型的中医药数据挖掘方法，包括以下具体步骤：1）先在LDA模型中确定处方‑主题和主题‑药剂两组先验，处方‑主题和主题‑药剂分别由超参数α和β确定，使用AS方式对两组先验进行先验假设，所述AS方式为：处方‑主题分布采用非对称的先验，主题‑药剂分布采用对称的先验；2）确定LDA模型中的主题数目；3）采用Gibbs采样方法对上述LDA模型进行求解；4）生成LDA模型的语义RDF文档，所述语义RDF文档包括一个四元组集合，所述四元组包括主体，谓词，客体，权重，将LDA模型的结果映射至四元组，并用语义RDF文档进行表示；5）将药剂和处方进行关联，建立处方‑主题‑药剂的可视化结构网络G，该结构网络G由顶点集合V和边集合E组成，即G＝(V,E)，顶点集合V是包含处方、主题和药剂的本体的集合，边集合E是主题和药剂之间的关系的集合，其中，建立可视化结构网络G的步骤包括：对于语义RDF文档中的四元组集合中的每一个四元组，如果该四元组的权重高于预设的概率阈值p，则将该四元组加入所述可视化结构网络G中，将该四元组的主体和客体并入顶点集合V，将该四元组的谓词并入边集合E，当全部四元组均加入所述可视化结构网络G后，即得到最终的中医药主题模型网络图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310276021.1/，转载请声明来源钻瓜专利网。

上一篇：一种基于开放数据库的远距离双中心联机处理方法和系统
下一篇：一种海量数据智能处理系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于LDA主题模型的中医药数据挖掘方法有效

专利文献下载