[发明专利]一种文本分类方法、装置、终端及存储介质有效
申请号: | 201811495730.8 | 申请日: | 2018-12-07 |
公开(公告)号: | CN109284392B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 王正魁;贾志强;张世西 | 申请(专利权)人: | 达闼机器人有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京智晨知识产权代理有限公司 11584 | 代理人: | 张婧 |
地址: | 200245 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 终端 存储 介质 | ||
1.一种文本分类方法,其特征在于,包括:
提取待分类文本的文本特征;
通过最佳匹配模型BM25算法,确定每个待分类文本的文本特征与各个类别的语料的相关度;
根据每个所述待分类文本的文本特征与各个类别的语料的相关度,确定所述待分类文本属于各个类别的置信度;其中,所述根据每个所述待分类文本的文本特征与各个类别的语料的相关度,确定所述待分类文本属于各个类别的置信度,具体包括:
针对每个类别,分别进行以下操作:确定每个所述待分类文本的文本特征在所述类别的语料中出现的次数;根据每个所述待分类文本的文本特征与所述类别的语料的相关度和所述每个所述待分类文本的文本特征在所述类别的语料中出现的次数,确定所述待分类文本相对于所述类别的类条件概率;根据所述待分类文本相对于所述类别的类条件概率,确定所述待分类文本属于所述类别的置信度;
根据所述待分类文本属于各个类别的置信度,确定所述待分类文本所属的类别。
2.根据权利要求1所述的文本分类方法,其特征在于,所述待分类文本的文本特征由所述待分类文本中任意M个字符组成,M为大于1的正整数。
3.根据权利要求2所述的文本分类方法,其特征在于,所述提取待分类文本的文本特征,具体包括:
确定指示数据;其中,所述指示数据用于指示是否考虑提取的字符各自在所述待分类文本中的先后顺序;
判断所述指示数据是否指示考虑提取的字符各自在所述待分类文本中的先后顺序;
若确定是,在一次文本特征的提取过程中,从所述待分类文本中提取M个字符,其中,所述M个字符未被同时提取过;按所述M个字符在所述待分类文本中的先后顺序,确定所述M个字符的先后顺序;按照所述M个字符的先后顺序,组合所述M个字符,得到本次提取过程中的所述待分类文本的文本特征,记录本次提取得到的待分类文本的文本特征;判断所述待分类文本中是否存在T个字符未被同时提取过,若确定是,进行下一次文本特征的提取过程,直至所述待分类文本中任意T个字符均被同时提取过;其中,T等于M,为正整数;
否则,在一次文本特征的提取过程中,从所述待分类文本中提取M个字符,其中,所述M个字符未被同时提取过;按所述M个字符的字符特征,确定所述M个字符的先后顺序;按照所述M个字符的先后顺序,组合所述M个字符,得到本次提取过程中的所述待分类文本的文本特征,记录本次提取得到的待分类文本的文本特征;判断所述待分类文本中是否存在T个字符未被同时提取过;若确定是,进行下一次文本特征的提取过程,直至所述待分类文本中任意T个字符均被同时提取过;其中,T等于M,为正整数。
4.根据权利要求2所述的文本分类方法,其特征在于,所述提取待分类文本的文本特征,具体包括:
提取所述待分类文本的候选文本特征,所述候选文本特征由待分类文本中的任意M个字符组成,且所述候选文本特征中的M个字符的先后顺序与所述M个字符在所述待分类文本中的先后顺序相同;
确定指示数据;其中,所述指示数据用于指示是否考虑提取的字符各自在所述待分类文本中的先后顺序;
判断指示数据是否指示考虑提取的字符各自在所述待分类文本中的先后顺序;
若确定是,将所述候选文本特征作为所述待分类文本的文本特征;
否则,针对每个所述候选文本特征,分别进行以下操作:按照所述候选文本特征中的M个字符的字符特征,调整所述候选文本特征,得到所述待分类文本的文本特征。
5.根据权利要求1至4中任一项所述的文本分类方法,其特征在于,所述通过最佳匹配模型BM25算法,确定每个待分类文本的文本特征与各个类别的语料的相关度,具体包括:
针对每个待分类文本的文本特征,分别进行以下操作:确定所述待分类文本的文本特征的逆向文档概率;根据所述待分类文本的文本特征的逆向文档概率,确定所述待分类文本的文本特征与各个类别的语料的相关度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达闼机器人有限公司,未经达闼机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811495730.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文献自动分类方法
- 下一篇:一种针对家谱人物属性名称的融合方法