[发明专利]一种文本分类方法、装置、终端及计算机可读存储介质有效
申请号: | 201811183892.8 | 申请日: | 2018-10-11 |
公开(公告)号: | CN109446321B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 王正魁;贾志强;桑海岩 | 申请(专利权)人: | 达闼机器人有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京竹辰知识产权代理事务所(普通合伙) 11706 | 代理人: | 陈龙 |
地址: | 200245 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 终端 计算机 可读 存储 介质 | ||
1.一种文本分类方法,其特征在于,包括:
提取待分类文本的文本特征;其中,所述待分类文本的文本特征由所述待分类文本中任意M个字符组成,M为大于1的正整数,在所述待分类文本中提取出的所述字符的间隔为N,N为小于所述待分类文本中所述字符总个数且大于或等于0的整数;
确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率;
根据每个所述待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定所述待分类文本属于各个类别的置信度;
根据所述待分类文本属于各个类别的置信度,确定所述待分类文本的类别;
其中,所述确定每个待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,具体包括:
针对每个所述待分类文本的文本特征,分别进行以下操作:根据组成所述待分类文本的文本特征中每个字符的字符特征,调整所述待分类文本的文本特征中每个字符的先后排序;确定调整后的文本特征在各个类别的语料中的词频-逆文档频率;将所述调整后的文本特征在各个类别的语料中的词频-逆文档频率,作为所述待分类文本的文本特征在各个类别的语料中的词频-逆文档频率。
2.根据权利要求1所述的文本分类方法,其特征在于,在所述确定调整后的文本特征在各个类别的语料中的词频-逆文档频率之前,所述文本分类方法还包括:
确定在总文本特征库中存在所述调整后的文本特征;其中,所述总文本特征库中包括所有类别的语料中的文本特征。
3.根据权利要求1所述的文本分类方法,其特征在于,所述字符特征为字符的美国信息交换标准代码ASCII。
4.根据权利要求1所述的文本分类方法,其特征在于,所述确定调整后的文本特征在各个类别的语料中的词频-逆文档频率,具体包括:
在确定所述调整后的文本特征在一个类别的语料中的词频-逆文档频率的过程中,确定所述类别的语料的文本特征中与所述调整后的文本特征相匹配的文本特征,将所述相匹配的文本特征的词频-逆文档频率,作为所述调整后的文本特征的词频-逆文档频率。
5.根据权利要求1所述的文本分类方法,其特征在于,M等于2。
6.根据权利要求1所述的文本分类方法,其特征在于,所述根据每个所述待分类文本的文本特征在各个类别的语料中的词频-逆文档频率,确定所述待分类文本属于各个类别的置信度,具体包括:
针对每个类别,分别进行以下操作:确定每个所述待分类文本的文本特征在所述类别的语料中出现的次数;根据每个所述待分类文本的文本特征在所述类别的语料中的词频-逆文档频率和所述每个所述待分类文本的文本特征在所述类别的语料中出现的次数,确定所述待分类文本相对于所述类别的类条件概率;根据所述待分类文本相对于所述类别的类条件概率,确定所述待分类文本属于所述类别的置信度。
7.根据权利要求6所述的文本分类方法,其特征在于,所述根据所述待分类文本相对于所述类别的类条件概率,确定所述待分类文本属于所述类别的置信度,具体包括:
确定所述类别出现的概率;
根据所述待分类文本相对于所述类别的类条件概率和所述类别出现的概率,确定所述待分类文本与所述类别的联合概率;
将所述待分类文本与所述类别的联合概率,作为所述待分类文本属于所述类别的置信度。
8.根据权利要求6所述的文本分类方法,其特征在于,所述类别出现的概率等于所述类别的语料的数量除以所有类别的语料的总数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达闼机器人有限公司,未经达闼机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811183892.8/1.html,转载请声明来源钻瓜专利网。