[发明专利]一种对文本进行分类的方法及装置有效
申请号: | 201110177822.3 | 申请日: | 2011-06-28 |
公开(公告)号: | CN102214233A | 公开(公告)日: | 2011-10-12 |
发明(设计)人: | 赵大哲;栗伟;杨金柱;覃文军;李博 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 马敬;逯长明 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 进行 分类 方法 装置 | ||
技术领域
本发明涉及分类技术领域,特别涉及一种对文本进行分类的方法及装置。
背景技术
文本分类是指在给定分类模型下,根据文本内容自动判断文本类别的过程,它广泛应用于信息检索、文本过滤等领域。文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引、降维和统计、特征抽取等步骤。文本分类技术的研究开始于20世纪60年代,词频统计是主要的分类技术。后来兴起了基于知识工程方法的文本分类方法,但是由于知识工程方法中专家的主观因素较多,存在可推广性极差的致命弱点。直到20世纪90年代,机器学习逐渐成为文本分类的主流技术。当前统计方法和机器学习的文本分类方法有很多,比如决策树,Rocchio,朴素贝叶斯,神经网络,支持向量机,最邻近算法(kNN,k-Nearest Neighbor algorithm)等。
电子病历(Electronic Health Record)是以电子化方式管理的有关个人终生健康状态和医疗保健行为的文本数据,涉及病人信息的采集、存储、传输、处理和利用。病历信息化在医院信息化建设中处于核心的地位,电子病历是医院数字化之本。因此,近年来电子病历得到了从政府到医院、从业务科室到IT部门的普遍关注。电子病历的应用将促进病历书写的规范化及标准化、提高临床医生的工作效率及医疗质量、降低医疗费用、加快临床数据的共享,并且向着电子化、集成化和智能化方向迅速发展。
文本通常描述多样,数量巨大,尤其对于电子病历文本,又具有医学知识复杂、表述严谨,医学词典异常庞杂等特点,因此,待分类文本的通常是一个具有高维向量的文本,而如何准确、高效的对高维文本进行分类,是个有待解决的问题。
发明内容
本发明实施例在于提供一种对文本进行分类的方法及装置,以准确、高效的对文本进行分类。
本发明实施例提供了一种对文本进行分类的方法,所述方法包括:
构建一个类别空间,所述类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;
计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;
根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;
计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;
将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。
其中,计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量的步骤包括:
1)计算词项tk在类别Cm中的频率TCFkm
TCFkm=γmtcf(tk,Cm)
其中tcf(tk,Cm)为词项tk在文本类别Cm中出现的次数,γm为权值,通常取1或tk表示词项,k∈{1,...,S},S表示词典中词项数量,N表示文档集中文档数量,文本类别集合C={Cm},m∈{1,...,M},文本类别总数为M;
2)计算词项tk的类别频率CFk,
CFk=包含词项tk的类别数量,
其中,CFk记作cfk;
3)计算词项tk的逆向类别频率ICFk
4)计算词项tk在类别Cm中的权重wkm
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110177822.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型节能环保燃烧机
- 下一篇:一种稳焰火盖