[发明专利]无监督文本分类系统及方法在审
申请号: | 201911150769.0 | 申请日: | 2019-11-21 |
公开(公告)号: | CN110889443A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 张发展;刘世林;罗镇权;李焕 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/30 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 林辉轮;张玲 |
地址: | 610015 四川省成都市自由贸易试验区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监督 文本 分类 系统 方法 | ||
本发明涉及一种无监督文本分类方法及系统,该方法包括步骤:针对于每个分类标签,设置种子关键词;采用预训练的词向量对种子关键词进行语义相似词扩充,得到扩充关键词;将种子关键词和扩充关键词编码为词向量;将待分类文本转换为文本向量;基于所述词向量,对所述文本向量进行分类。本发明方法及系统,对文本进行分类时,无需进行人工标注,进而可以降低人工标注的成本,以及加快文本分类的效率。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种无监督文本分类系统及方法。
背景技术
自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向,通常包括语句分类、文本分类、信息抽取等分支。文本分类是指给文本指定一个特定的标签,当前通常采用有监督的机器学习方法训练模型,进而基于该模型进行文本分类,具有一定的准确率,但是同时也存在缺陷。例如,有监督的方法需要投入大量的人力进行语料标注,如果分类标签成百上千时,将大大增加人工标注的难度,同时人工标注的效率也比较低下。
发明内容
本发明的目的在于改善现有技术中所存在的上述不足,提供一种无监督文本分类系统及方法,无需进行人工标注,大大提高文本分类的效率,降低人工成本。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种无监督文本分类方法,包括以下步骤:
针对于每个分类标签,设置种子关键词;
采用预训练的词向量对种子关键词进行语义相似词扩充,得到扩充关键词;
将种子关键词和扩充关键词编码为词向量;
将待分类文本转换为文本向量;
基于所述词向量,对所述文本向量进行分类。
另一方面,本发明实施例同时提供了一种无监督文本分类系统,包括:
配置模块,用于针对于每个分类标签,设置种子关键词;
扩充模块,用于采用预训练的词向量对种子关键词进行语义相似词扩充,得到扩充关键词;
词转换模块,用于将种子关键词和扩充关键词编码为词向量;
文本转换模块,用于将待分类文本转换为文本向量;
分类模块,用于基于词转换模块中输出的所述词向量,对所述文本向量进行分类。
再一方面,本发明实施例同时提供了一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令在被执行时使处理器执行本发明实施例中所述方法中的操作。
再一方面,本发明实施例同时提供了一种电子设备,包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现本发明实施例中所述方法中的步骤。
与现有技术相比,本发明方法及系统,对文本进行分类时,无需进行人工标注,进而可以规避人工标注所存在的缺陷,例如规避人工标注所存在的人工成本高、效率低下、类别较多时的标注困难等缺陷。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为实施例中所述文本分类方法的流程图。
图2为降维后文本向量二维分布图。
图3为分类效果图。
图4为实施例中所述的文本分类系统的示意框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911150769.0/2.html,转载请声明来源钻瓜专利网。