[发明专利]文本主题的分类方法及系统有效
申请号: | 201510341937.X | 申请日: | 2015-06-18 |
公开(公告)号: | CN105045812B | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 周诚;赵世亭;赵营营 | 申请(专利权)人: | 上海高欣计算机系统有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
地址: | 201203 上海市浦东新区自由*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题类型 特征向量 文本主题 语料 文本 分类 待分类文本 分词 文本特征提取 分类技术 分类文本 函数调整 文本分类 相似度 采集 | ||
本发明涉及文本主题分类技术领域,公开了一种文本主题的分类方法及系统。本发明中,文本主题的分类方法,包含以下步骤:采集语料;其中,语料包含各个主题类型的文本;对语料进行分词,并对分词后的语料进行文本特征提取,得到各主题类型文本的特征向量;根据动态对数激励函数调整各主题类型文本的特征向量中的特征值,得到新的各主题类型文本的特征向量;根据待分类文本与新的各主题类型文本的特征向量的相似度,对待分类文本进行分类,确定待分类文本的主题类型。这样,使得对文本分类更准确。
技术领域
本发明涉及文本主题分类技术,特别涉及一种文本主题的分类方法及系统。
背景技术
随着互联网信息的发展,文本分类需求也日趋增大,文本分类在一定程度上能够解决网上信息杂乱的现象,能够方便用户准确的定位自己所需的信息。文本分类是将带有大量标记的训练样本,通过一种分类模型或者函数,将待分类文本映射到指定的类别中。
文本分类方法可分为基于规则的分类方法和基于统计的分类方法。其中,基于规则的分类方法通过对训练集的学习,生成规则库,并将进行优化,最终得到的规则库为规则分类器。但是,基于规则的分类方法的缺点是,如FOIL算法,分为正例和负例提取规则,采用信息增益来提取最好的一个属性值来生成规则,而且一次只生成一条规则,在生成规则以后,将被规则覆盖的训练集删除,继续从生育的训练集中寻找最好的属性值。该方法有效的减少了冗余的规则,然而每条训练集仅被一条规则覆盖,因此在分类的时候准确率不高,特别是当训练集较小的时候。还有基于决策树分类的方法,对于默写数据集,当数据集的实例个数较多时,产生的决策树非常大,分类模型较为复杂。(具体参考文献《基于规则的分类方法研究》)基于统计的分类方法典型的有朴素贝叶斯分类器,贝叶斯分类方法使用于大型数据库,并且表现出高准确率和高速度。贝叶斯分类有如下特点:(1)贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类;(2)一般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类;(3)贝叶斯分类对象的属性可以是离散的、连续的,也可以是混合的。贝叶斯定理给出了最小化误差的最优解决方法,可用于分类和预测。理论上,贝叶斯分类看起来很完美,但在实际中,它并不能直接利用,它需要知道证据的确切分布概率,而实际上我们并不能确切的给出证据的分布概率。因此在很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求,使用起来不方便。
除此之外,还有基于向量空间模型的分类器、基于实例的分类器和用支持向量机建立的分类器等。SVM(支持向量机)在解决小样本、非线性及高纬模式识别中表现出其特有的优势,由于SVM算法不受样本趋于无穷大理论的限制,也适合做大样本集的文本分类,并且能够推广应用到函数模拟和其他机器学习问题中。但是,SVM由于要选择合适的核函数,使之训练速度也受样本集的影响,以及选取何种合适的核函数,也是该方法的难题。
文本分类还可以按照其数据训练的方法,分为有监督和无监督文本分类方法,其中有监督的方法有KNN(K最近邻)、神经网络、支持向量机与聚类方法等;其中KNN通过查询已知类别文本的信息,判断未知文本与已知文本是否属于同一类,通过判断训练文本与该未知文本距离最近的K个文本,根据这K个文本所属的类别,来判断该未知文本属于哪个类别。KNN方法计算复杂度低,鲁棒性强,但是,缺点是分类速度较慢,需要计算待分类样本与训练样本之间的距离,不适合做在线实时分类。
无监督的文本方法包括LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)、无监督聚类等。LDA方法是统计主题模型中的典型算法,文本分类核心问题是提取文本中的特征,从而分析文本属于何种主题。LDA可以看成一种生成式概率问题。LDA是Blei(布雷)提出的一种对离散数据集建模的概率增长模型。LDA模型有着突出的优点:首先LDA模型是全概率生成模型,具有清晰的层次结构;其次LDA模型在主题层与词层都引入了Dirichlet(狄利克雷)先验参数,主题参数个数随训练文档数目增加而线性增加,从而导致过度拟合的问题,因此更适合处理大规模语料库,对中小规模语料库不适用,应用具有局限性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海高欣计算机系统有限公司,未经上海高欣计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510341937.X/2.html,转载请声明来源钻瓜专利网。