[发明专利]一种基于主题模型的医案分类方法有效
申请号: | 201611207980.8 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106709520B | 公开(公告)日: | 2019-05-31 |
发明(设计)人: | 张引;李哲蓉;姚亮;魏宝刚 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/583 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题模型 词表 文档主题 方剂 结构化 过滤 预处理 中药 文本结构化 分词结果 中文分词 停用词 分类 采样 疾病 分词 书籍 | ||
本发明公开了一种基于主题模型的医案分类方法。步骤如下:1)通过OCR、文本结构化处理,从医案书籍中提取结构化单篇医案;2)使用中文分词工具,对所有结构化单篇医案进行预处理,包括分词和去停用词;3)分别使用中药、方剂、疾病、症状、证候、治法的领域词典对医案的分词结果进行过滤,得到每篇医案对应的六个词表。4)建立包含普通词、中药、方剂、疾病、症状、证候、治法七大类的医案主题模型。5)将所有医案在步骤3)过滤得到的六个词表和医案中剩下的词一起输入主题模型中进行训练,通过吉布斯采样得到文档主题分布。6)将文档主题分布输入训练好的SVM分类器得到相应类别。
技术领域
本发明涉及文本分类领域,具体涉及一种基于主题模型的医案分类方法。
背景技术
中医医案是中医领域的精粹,包含了医生临床治疗过程中的宝贵经验。从医案中发现知识对于中医临床研究和实践具有重大意义。对医案的自动分类将极大地便利医案的组织、检索的效率,方便中医知识挖掘和管理。主题模型例如LDA能将文本表示成低维的主题分布,常用于文本分类,并且有较好的性能。而主题模型对文章中的词一视同仁,不能区分医案中不同类别的词,例如药方病证。这将减弱主题分布的区分能力。
发明内容
本发明的目的是为训练更具区分度的文本特征表示,取得更好的医案分类效果,提出一种基于主题模型的医案分类方法。
本发明的目的是通过以下技术方案来实现的:一种基于主题模型的医案分类方法,其特征在于包括以下步骤:
1)通过OCR、文本结构化处理,从医案书籍中提取结构化单篇医案;
2)使用中文分词工具,对所有结构化单篇医案进行预处理,所述的预处理包括分词和去停用词;
3)分别使用中药、方剂、疾病、症状、证候、治法的领域词典对结构化单篇医案的分词结果进行过滤,得到每篇医案对应的六个词表;
4)建立包含普通词、中药、方剂、疾病、症状、证候、治法七大类的医案主题模型;
5)将步骤3)得到的六个词表和结构化单篇医案中剩下的词一起输入步骤4)得到的主题模型中进行训练,通过吉布斯采样,得到
式中:θd是文档d的文档主题分布,ndk是文档d中主题k被赋给一个词的次数,Nw,Nh,Np,Nd,Nsp,Nsd,Nt分别是文档d的普通词、中药、方剂、疾病、症状、证候、治法词的个数,K是主题的个数,α是θd的狄利克雷先验的超参数;
6)将步骤5)得到的θd输入训练好的SVM分类器得到相应类别。
所述的中文分词工具包括Java的FNLP和IKAnalyzer。
所述的中药领域词典为《中医药主题词表》中的970味中药;所述的方剂领域词典为《方剂大辞典》中的98334个方剂;所述的疾病领域词典为《中医临床诊疗术语疾病表》的970个疾病;所述的症状领域词典为《中医药主题词表》的701个症状;所述的证候领域词典为《中医临床诊疗术语证候表》的813个证候;所述的治法领域词典为《中医临床诊疗术语治法表》的1006个治法。
所述的步骤4)具体为:
4.1)对于每篇文档d,生成θd的狄利克雷分布Dir(α)
4.2)对于主题1、2…K中的每个普通词w,生成的狄利克雷分布Dir(β)
4.3)对于主题1、2…K中的每个中药词h,生成的狄利克雷分布Dir(β)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611207980.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于DMD动态选区的FPGA处理模块及其方法
- 下一篇:一种自旋波波片