[发明专利]文本分类方法、计算设备及计算机存储介质有效

申请号：	202010270127.0	申请日：	2020-04-08
公开（公告）号：	CN111475651B	公开（公告）日：	2023-04-07
发明（设计）人：	柳燕煌	申请（专利权）人：	掌阅科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/30;G06F40/289
代理公司：	北京市浩天知识产权代理事务所(普通合伙) 11276	代理人：	宋菲
地址：	100124 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类方法计算设备计算机存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本分类方法、计算设备及计算机存储介质，该方法包括：通过对无监督语料进行训练，提取无监督语料中各个字的语义特征以及各个常用词的语义特征，得到语料特征集；对已标注的样本语料进行切词处理，得到切词处理结果，并确定切词处理结果包含的常用词和非常用词；对非常用词进行切分处理，得到非常用词包含的各个字；在语料特征集中获取切词处理结果包含的常用词对应的语义特征以及非常用词包含的各个字对应的语义特征；根据获取的语义特征以及已标注的样本语料的标注信息，训练得到违规分类模型；基于违规分类模型，对待分类文本进行分类处理。该方式能够实现语义层面的内容分类，提升了文本分类的准确性。

技术领域

本发明涉及文本分类技术领域，具体涉及一种文本分类方法、计算设备及计算机存储介质。

背景技术

书籍、文章等创作内容在上线发布前，需要进行内容审核，以过滤涉黄、涉恐、涉政等敏感内容。现有技术中，通常是构建敏感词库，通过字符串匹配方式在待审核文本中查找敏感词，从而过滤掉敏感内容，这种方式能够解放人工。

但是，发明人在实现本发明的过程发现现有技术至少存在以下不足：一方面，随着语言习惯的发展，敏感词库会不断扩充，增加了敏感词库的维护难度和成本，并且会使文本审核的耗时越来越长；另一方面，内容创作者为了规避内容审核，会使用暗指、借代等方式传递敏感信息，对于这种表面上属于正常词汇，但语义层面上涉及敏感信息的内容，单单通过字符串匹配的方式是无法发现的。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本分类方法、计算设备及计算机存储介质。

根据本发明的一个方面，提供了一种文本分类方法，包括：

通过对无监督语料进行训练，提取无监督语料中各个字的语义特征以及各个常用词的语义特征，得到语料特征集；

对已标注的样本语料进行切词处理，得到切词处理结果，并确定所述切词处理结果包含的常用词和非常用词；对非常用词进行切分处理，得到非常用词包含的各个字；

在语料特征集中获取切词处理结果包含的常用词对应的语义特征以及非常用词包含的各个字对应的语义特征；

根据获取的语义特征以及所述已标注的样本语料的标注信息，训练得到违规分类模型；

基于违规分类模型，对待分类文本进行分类处理。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：

通过对无监督语料进行训练，提取无监督语料中各个字的语义特征以及各个常用词的语义特征，得到语料特征集；

对已标注的样本语料进行切词处理，得到切词处理结果，并确定切词处理结果包含的常用词和非常用词；对非常用词进行切分处理，得到非常用词包含的各个字；