[发明专利]无监督文本分类系统及方法在审

申请号：	201911150769.0	申请日：	2019-11-21
公开（公告）号：	CN110889443A	公开（公告）日：	2020-03-17
发明（设计）人：	张发展;刘世林;罗镇权;李焕	申请（专利权）人：	成都数联铭品科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/30
代理公司：	北京市领专知识产权代理有限公司 11590	代理人：	林辉轮;张玲
地址：	610015 四川省成都市自由贸易试验区***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	监督文本分类系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种无监督文本分类方法及系统，该方法包括步骤：针对于每个分类标签，设置种子关键词；采用预训练的词向量对种子关键词进行语义相似词扩充，得到扩充关键词；将种子关键词和扩充关键词编码为词向量；将待分类文本转换为文本向量；基于所述词向量，对所述文本向量进行分类。本发明方法及系统，对文本进行分类时，无需进行人工标注，进而可以降低人工标注的成本，以及加快文本分类的效率。

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种无监督文本分类系统及方法。

背景技术

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向，通常包括语句分类、文本分类、信息抽取等分支。文本分类是指给文本指定一个特定的标签，当前通常采用有监督的机器学习方法训练模型，进而基于该模型进行文本分类，具有一定的准确率，但是同时也存在缺陷。例如，有监督的方法需要投入大量的人力进行语料标注，如果分类标签成百上千时，将大大增加人工标注的难度，同时人工标注的效率也比较低下。

发明内容

本发明的目的在于改善现有技术中所存在的上述不足，提供一种无监督文本分类系统及方法，无需进行人工标注，大大提高文本分类的效率，降低人工成本。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种无监督文本分类方法，包括以下步骤：

针对于每个分类标签，设置种子关键词；

采用预训练的词向量对种子关键词进行语义相似词扩充，得到扩充关键词；

将种子关键词和扩充关键词编码为词向量；

将待分类文本转换为文本向量；

基于所述词向量，对所述文本向量进行分类。

另一方面，本发明实施例同时提供了一种无监督文本分类系统，包括：

配置模块，用于针对于每个分类标签，设置种子关键词；

扩充模块，用于采用预训练的词向量对种子关键词进行语义相似词扩充，得到扩充关键词；