[发明专利]一种文本分类方法及相关装置有效

申请号：	201811645051.4	申请日：	2018-12-29
公开（公告）号：	CN109614494B	公开（公告）日：	2021-10-26
发明（设计）人：	赵耕弘;崔朝辉;赵立军;张霞	申请（专利权）人：	东软集团股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	郭化雨;王宝筠
地址：	110179 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种文本分类方法及相关装置，所述方法包括：对目标文本的相邻字符进行分割，获得多个分割词；获得所述多个分割词的词向量；根据所述多个分割词的词向量，获得所述目标文本的文本向量；根据所述目标文本的文本向量，获得所述目标文本的分类信息。本申请实施例中通过对目标文本中的相邻字符进行分割即可实现文本分类，例如对目标文本每两个或是三个相邻字符进行分割，因此不需要对目标文本进行基于语义的分词处理，解决了因分词准确性较差导致的文本分类准确性降低的问题。

技术领域

本申请涉及自然语言处理领域，尤其是涉及一种文本分类方法及相关装置。

背景技术

文本分类是自然语言处理领域中一种常见的技术，用于根据目标文本的内容将目标文本归类到至少一个类别中。

目前，在对目标文本进行文本分类时，常用的一种方式是根据目标文本的语义对目标文本进行分词处理，并根据分词处理的结果将目标文本归类到至少一个类别中。其中分词处理通常基于分词模型实现。

显然，这种分类方式需要进行对目标文本进行基于语义的分词处理，因此文本分类的准确性依赖于分词准确性。然而，在一些情况下由于训练样本较少等原因，导致分词准确性较低。例如中文文本的分词模型通常采用的是有监督机器学习模型，因此训练样本是有限的；又例如对于特殊行业领域，很难找到适合的训练样本。因此，当训练样本较少时，或者其他一些原因导致分词的准确性较低时，会进一步影响文本分类的准确性。

发明内容

本申请解决的技术问题在于提供一种文本分类方法及相关装置，以实现不需要基于语义进行分词处理即可实现文本分类，解决了因分词准确性较差导致的文本分类准确性降低的问题。

为此，本申请解决技术问题的技术方案是：

本申请实施例提供了一种文本分类方法，包括：

对目标文本的相邻字符进行分割，获得多个分割词；

获得所述多个分割词的词向量；

根据所述多个分割词的词向量，获得所述目标文本的文本向量；

根据所述目标文本的文本向量，获得所述目标文本的分类信息。

可选的，所述根据所述多个分割词的词向量，获得所述目标文本的文本向量，包括：

对所述多个分割词的词向量进行加权求和计算，获得加权和；

将所述加权和作为所述目标文本的文本向量。

可选的，所述对所述目标文本中的相邻字符进行分割，获得多个分割词，包括：