[发明专利]一种多级文本分类方法及系统在审
申请号: | 201910152479.3 | 申请日: | 2019-02-28 |
公开(公告)号: | CN109902178A | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 曾俊瑀;张文斌;贾显伏;乔咏田 | 申请(专利权)人: | 云孚科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京世誉鑫诚专利代理事务所(普通合伙) 11368 | 代理人: | 孙国栋 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开的多级文本分类方法及系统,涉及数据处理技术领域,通过将当前待分类的文本分别输入训练过的多个文本分类模型,计算各个层文本的概率,根据公式Pn=p_A×p_A1×p_A11×…×p_A11…1,分别计算第n层文本中各个叶子节点的概率,选取概率大于设定阈值的第n层文本并对第n层文本对应的概率进行归一化处理,得到文本的分类结果,能够简单快速地实现对多级文本的分类,简化了多级文本分类的难度,提高了多级文本分类的效率及准确率,解决了现有技术存在的对多级文本分类困难、效率低及准确率低的缺陷。 | ||
搜索关键词: | 文本分类 文本 概率 准确率 数据处理技术 文本分类模型 归一化处理 分类结果 叶子节点 分类 | ||
【主权项】:
1.一种多级文本分类方法,其特征在于,包括:将当前待分类的文本分别输入训练过的多个文本分类模型,计算各个层文本的概率,其中,所述多个文本分类模型包括第一层文本分类模型、第二层文本分类模型…第n层文本分类模型,n为所述文本的层数;根据公式Pn=p_A×p_A1×p_A11×…×p_A11…1,分别计算第n层文本中各个叶子节点的概率,其中,p_A、p_A1、p_A11…p_A11…1分别为第一层的文本的节点经所述第一层文本分类模型计算得到的概率、第二层的文本的节点经所述第二层文本分类模型计算得到的概率…第n层的文本的节点经所述第n层文本分类模型计算得到的概率,p_A1为p_A11的父亲节点,p_A为p_A1的父亲节点;选取概率大于设定阈值的第n层文本并对所述第n层文本对应的概率进行归一化处理,得到所述文本的分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云孚科技(北京)有限公司,未经云孚科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910152479.3/,转载请声明来源钻瓜专利网。