[发明专利]一种基于主题模型的医案分类方法有效

专利信息
申请号: 201611207980.8 申请日: 2016-12-23
公开(公告)号: CN106709520B 公开(公告)日: 2019-05-31
发明(设计)人: 张引;李哲蓉;姚亮;魏宝刚 申请(专利权)人: 浙江大学
主分类号: G06K9/62 分类号: G06K9/62;G06F16/583
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 郑海峰
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于主题模型的医案分类方法。步骤如下:1)通过OCR、文本结构化处理,从医案书籍中提取结构化单篇医案;2)使用中文分词工具,对所有结构化单篇医案进行预处理,包括分词和去停用词;3)分别使用中药、方剂、疾病、症状、证候、治法的领域词典对医案的分词结果进行过滤,得到每篇医案对应的六个词表。4)建立包含普通词、中药、方剂、疾病、症状、证候、治法七大类的医案主题模型。5)将所有医案在步骤3)过滤得到的六个词表和医案中剩下的词一起输入主题模型中进行训练,通过吉布斯采样得到文档主题分布。6)将文档主题分布输入训练好的SVM分类器得到相应类别。
搜索关键词: 主题模型 词表 文档主题 方剂 结构化 过滤 预处理 中药 文本结构化 分词结果 中文分词 停用词 分类 采样 疾病 分词 书籍
【主权项】:
1.一种基于主题模型的医案分类方法,其特征在于包括以下步骤:1)通过OCR、文本结构化处理,从医案书籍中提取结构化单篇医案;2)使用中文分词工具,对所有结构化单篇医案进行预处理,所述的预处理包括分词和去停用词;3)分别使用中药、方剂、疾病、症状、证候、治法的领域词典对结构化单篇医案的分词结果进行过滤,得到每篇医案对应的六个词表;4)建立包含普通词、中药、方剂、疾病、症状、证候、治法七大类的医案主题模型;4.1)对于每篇文档d,生成θd的狄利克雷分布Dir(α)4.2)对于主题1、2…K中的每个普通词w,生成的狄利克雷分布Dir(β)4.3)对于主题1、2…K中的每个中药词h,生成的狄利克雷分布Dir(β)4.4)对于主题1、2…K中的每个方剂词p,生成的狄利克雷分布Dir(β)4.5)对于主题1、2…K中的每个疾病词d,生成的狄利克雷分布Dir(β)4.6)对于主题1、2…K中的每个症状词sp,生成的狄利克雷分布Dir(β)4.7)对于主题1、2…K中的每个证候词sd,生成的狄利克雷分布Dir(β)4.8)对于主题1、2…K中的每个治法词t,生成的狄利克雷分布Dir(β)4.9)对于文档d的Nw个普通词4.9.1)根据多项式分布Mult(θd)生成主题zwn4.9.2)根据多项式分布生成词wdn4.10)对于文档d的Nh个中药词4.10.1)根据多项式分布Mult(θd)生成主题zhn4.10.2)根据多项式分布生成词hdn4.11)对于文档d的Np个方剂词4.11.1)根据多项式分布Mult(θd)生成主题zpn4.11.2)根据多项式分布生成词pdn4.12)对于文档d的Nd个疾病词4.12.1)根据多项式分布Mult(θd)生成主题zdn4.12.2)根据多项式分布生成词dsdn4.13)对于文档d的Nsp个症状词4.13.1)根据多项式分布Mult(θd)生成主题zspn4.13.2)根据多项式分布生成词spdn4.14)对于文档d的Nsd个证候词4.14.1)根据多项式分布Mult(θd)生成主题zsdn4.14.2)根据多项式分布生成词sddn4.15)对于文档d的Nt个治法词4.15.1)根据多项式分布Mult(θd)生成主题ztn4.15.2)根据多项式分布生成词tdn各式中:分别是主题k对普通词、中药词、方剂词、疾病词、症状词、证候词和治法词的多项式分布,β是的狄利克雷分布的超参数;zwn,zhn,zpn,zdn,zspn,zsdn,ztn分别是文档d中普通词、中药词、方剂词、疾病词、症状词、证候词和治法词的主题,wdn,hdn,pdn,dsdn,spdn,sdan,tdn分别是文档d中的第n个普通词、中药词、方剂词、疾病词、症状词、证候词和治法词;分别是主题zwn对普通词、主题zhn对中药、主题zpn对方剂、主题zdn对疾病、主题zspn对症状、主题zsdn对证候和主题ztn对治法的多项式分布;5)将步骤3)得到的六个词表和结构化单篇医案中剩下的词一起输入步骤4)得到的主题模型中进行训练,通过吉布斯采样,得到式中:θd是文档d的文档主题分布,ndk是文档d中主题k被赋给一个词的次数,Nw,Nh,Np,Nd,Nsp,Nsd,Nt分别是文档d的普通词、中药、方剂、疾病、症状、证候、治法词的个数,K是主题的个数,α是θd的狄利克雷先验的超参数;6)将步骤5)得到的θd输入训练好的SVM分类器得到相应类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611207980.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top