[发明专利]一种基于贝叶斯文本分类模型的辅助挂号方法在审
申请号: | 201410273989.3 | 申请日: | 2014-06-18 |
公开(公告)号: | CN104021302A | 公开(公告)日: | 2014-09-03 |
发明(设计)人: | 崔晓艳;王枞;徐冉;韩旭;古恒 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 斯文 分类 模型 辅助 挂号 方法 | ||
技术领域
本发明涉及一种基于贝叶斯文本分类模型的辅助挂号方法
背景技术
随着计算机软硬件性能的不断提升,人们更加期望计算机能够提供更加智能的人机交互方式,特别是在网络预约和用户自助挂号方面,通过对医疗领域文本数据的挖掘,可以辅助网络用户自助挂号,提高门诊效率。这种机器自动化辅助挂号功能的实现,底层都需要有文本挖掘技术的支持,文本挖掘技术的优劣,直接决定了系统性能的高低,也决定了人机交互效果的好坏。
要实现辅助挂号功能,核心是一个基于患者症状主诉文本数据的分类模型,要建立这个模型,首先要对获得的文本数据进行预处理,然后预处理后的数据用向量空间模型进行表示,再进行特征抽取,选出具有代表性的特征词,最后用朴素贝叶斯分类理论训练,获得辅助挂号模型。
目前,贝叶斯文本分类技术通常应用于web文本分类,判断网页内容属于哪一大类,这部分技术已经相对成熟,能够很好地完成网页信息的自动分类,然而,这一成熟的技术在医疗领域的应用很少,随着各大医院文本数据剧烈增涨,急需一些成熟的文本挖掘技术对这部分数据进行处理,获取有用的信息和知识。
贝叶斯理论有着坚实的概率论和数据统计基础,假设c={c1,c2,...,cn}是n个不同类别的集合,给定一个未知类别属性的样本A,P(A)是A的先验概率,P(Ci)是Ci的先验概率。P(A|Ci)是假设类别Ci成立时样本A发生的概率,而我们需要的是给定一个训练样本A时Ci成立的后延概率,即P(Ci|A)。由贝叶斯公式可得:
对于任意的Ci,Cj∈C(i≠j)有P(Ci|A)>P(Cj|A)成立,则将样本A的类别判定为Ci。其中条件概率假设采用极大似然估计(maximumlikelihood)的方法进行估计,公式如下:
由朴素贝叶斯分类算法的条件独立性假设,得
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410273989.3/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用