[发明专利]一种多级文本分类方法及系统在审
申请号: | 201910152479.3 | 申请日: | 2019-02-28 |
公开(公告)号: | CN109902178A | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 曾俊瑀;张文斌;贾显伏;乔咏田 | 申请(专利权)人: | 云孚科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京世誉鑫诚专利代理事务所(普通合伙) 11368 | 代理人: | 孙国栋 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本分类 文本 概率 准确率 数据处理技术 文本分类模型 归一化处理 分类结果 叶子节点 分类 | ||
1.一种多级文本分类方法,其特征在于,包括:
将当前待分类的文本分别输入训练过的多个文本分类模型,计算各个层文本的概率,其中,所述多个文本分类模型包括第一层文本分类模型、第二层文本分类模型…第n层文本分类模型,n为所述文本的层数;
根据公式Pn=p_A×p_A1×p_A11×…×p_A11…1,分别计算第n层文本中各个叶子节点的概率,其中,p_A、p_A1、p_A11…p_A11…1分别为第一层的文本的节点经所述第一层文本分类模型计算得到的概率、第二层的文本的节点经所述第二层文本分类模型计算得到的概率…第n层的文本的节点经所述第n层文本分类模型计算得到的概率,p_A1为p_A11的父亲节点,p_A为p_A1的父亲节点;
选取概率大于设定阈值的第n层文本并对所述第n层文本对应的概率进行归一化处理,得到所述文本的分类结果。
2.根据权利要求1所述的文本分类方法,其特征在于,所述多个文本分类模型的创建方法包括:
根据当前待分类文本的类别,确定所述文本的第一层文本的类别并根据所述第一层文本的类别,为所述第一层文本设置相应的标签;
根据所述第一层文本的类别,获取所述文本的第二层文本的类别,依次类推,直至获取到所文本的末级文本的类别并根据所述第二层文本的类别,为所述第二层文本设置相应的标签;
重复上述步骤,直止为所述第n层文本设置相应的标签;
利用所述第一层文本、第二层文本…第n层文本,对所述文本分类模型进行训练,生成第一层文本分类模型、第二层文本分类模型…第n层文本分类模型。
3.根据权利要求2所述的文本分类方法,其特征在于,所述文本分类模型包括:朴素贝叶斯模型、支持向量机模型及神经网络模型。
4.一种文本分类系统,其特征在于,包括:
计算模块,用于计算各个层文本的概率,其中,所述多个文本分类模型包括第一层文本分类模型、第二层文本分类模型…第n层文本分类模型,n为所述文本的层数;
计算模块,还用于根据公式Pn=p_A×p_A1×p_A11×…×p_A11…1,分别计算各个文本中各个叶子文本的概率,其中,p_A、p_A1、p_A11…p_A11…1分别为第一层的文本的节点经所述第一层文本分类模型计算得到的概率、第二层的文本的节点经所述第二层文本分类模型计算得到的概率…第n层的文本的节点经所述第n层文本分类模型计算得到的概率,p_A1为p_A11的父亲节点,p_A为p_A1的父亲节点;
选取模块,用于选取概率大于设定阈值的第n层文本并对所述第n层文本对应的概率进行归一化处理,得到所述文本的分类结果。
5.根据权利要求4所述的文本分类系统,其特征在于,所述系统还包括:
设置模块,用于为所述第一层文本设置相应的标签;
设置模块,还用于为所述第二层文本设置相应的标签;
设置模块,还用于为所述第n层文本设置相应的标签;
训练模块,用于利用所述第一层文本、第二层文本…第n层文本,对所述文本分类模型进行训练,生成第一层文本分类模型、第二层文本分类模型…第n层文本分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云孚科技(北京)有限公司,未经云孚科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910152479.3/1.html,转载请声明来源钻瓜专利网。