[发明专利]文本分类模型的优化方法及装置有效

申请号：	201710016389.2	申请日：	2017-01-10
公开（公告）号：	CN108287850B	公开（公告）日：	2021-09-21
发明（设计）人：	陈帅;徐峰;陈明星;郑霖;陈弢	申请（专利权）人：	创新先进技术有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁
地址：	开曼群岛大开曼岛***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类模型优化方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及计算机技术领域，尤其涉及一种文本分类模型的优化方法及装置，在一种文本分类模型的优化方法中，首先获取文本集，并对文本集中的各个文本进行预处理，得到各个文本对应的词语集合。将词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配，根据匹配结果，确定所述词语集合中的词语的类别。根据词语的类别，对预设的特征词集合进行扩充。根据扩充后的预设的特征词集合，对词语集合中的词语进行过滤。确定过滤后的词语集合中的词语的权重值，根据过滤后的词语集合中的词语以及对应的权重值，对预设的文本分类模型进行优化。由此，可以获得对文本进行准确分类的文本分类模型。

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本分类模型的优化方法及装置。

背景技术

传统技术中，通常通过如下两种方法来对文本进行分类：

第一种方法是，基于规则的方法，即预先收集一些常用的类别关键词，这些类别关键词所对应的类别是已知的，当待分类的文本与某个类别关键词相匹配时，将该文本分类为该类别关键词所对应的类别。然而该方法有很大的局限性，当某个文本与任一类别关键词均不匹配时，无法对该文本进行分类。此外，该方法通常不能对文本进行准确分类。举例来说，假设预先收集的类别关键词为：“天猫”，其对应的类别为互联网行业。由于文本“天猫服务站”包含“天猫”，也即该文本与“天猫”匹配，因此，该文本会被分类为互联网行业，但实际上该文本的分类为便利店。

第二种方法是，基于文本分类模型的方法，此处的文本分类模型包括朴素贝叶斯模型，K最近邻(k-Nearest Neighbor,KNN)模型以及最大熵模型等。在该方法中，首先会计算待分类的文本中各个词语的词频(term frequency，TF)和逆文档频率(inversedocument frequency，IDF)，之后根据各个词语的权重值(如，TF*IDF)，来对待分类的文本进行分类。然而该方法通常只适用于对长文本进行分类，因为长文本中，部分词语才会出现多次，也即TF才能起到相应的作用。对于短文本(该文本中通常只包括了较少的词语)，大部分的词语在文本中只出现了一次,TF没有任何意义，从而根据上述文本分类模型，不能准确地对短文本进行分类。因此，就有了对该文本分类模型进行优化的需求。

发明内容

本申请描述了一种文本分类模型的优化方法及装置，可以获得对文本进行准确分类的文本分类模型。

第一方面，提供了一种文本分类模型的优化方法，包括：

获取文本集，所述文本集包括至少一个文本；

对所述文本集中的各个文本进行预处理，得到所述各个文本对应的词语集合；

将所述词语集合中的词语与预设的特征词集合中的各个类别特征词进行匹配；

根据匹配结果，确定所述词语集合中的词语的类别；

根据所述词语的类别，对所述预设的特征词集合进行扩充；

根据扩充后的预设的特征词集合，对所述词语集合中的词语进行过滤；

根据所述文本集以及所述词语的类别，确定过滤后的词语集合中的词语的权重值；

根据所述过滤后的词语集合中的词语以及对应的权重值，对预设的文本分类模型进行优化。

第二方面，提供了一种文本分类模型的优化装置，包括：