[发明专利]一种主题分类方法和装置在审

申请号：	201910656595.9	申请日：	2019-07-19
公开（公告）号：	CN110502747A	公开（公告）日：	2019-11-26
发明（设计）人：	王子夫;魏越;何慧	申请（专利权）人：	北京云和时空科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06K9/62;G06N3/04;G06N3/08
代理公司：	11319 北京润泽恒知识产权代理有限公司	代理人：	莎日娜<国际申请>=<国际公布>=<进入
地址：	100080 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语料主题分类权重分词目标关键词模型训练方法和装置分词处理目标文本数据标注数据分配数目确定词向量预置标注分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种主题分类方法和装置，所述方法包括：对第一语料数据进行分词处理，得到第二语料数据；根据候选分词在第二语料数据的数目确定候选分词的权重值，并将权重值大于权重阈值的候选分词作为第二语料数据的关键词；根据权重值给第二语料数据中各语料子数据分配的目标关键词，并根据语料子数据及目标关键词生成第三语料数据；基于第三语料数据与预置词向量对主题分类模型训练；采用训练后的主题分类模型对目标文本分类。本发明实施例通过自动对语料数据关键词标注，减少了语料数据标注所需的人力投入和人为参与，从而降低了主题分类模型训练的人力投入的同时，避免了由于人为参与导致的误差，提高了主题分类模型的准确性。

技术领域

本发明属于计算机应用技术领域，特别是涉及一种主题分类方法和装置。

背景技术

随着网络的日益普及，人们在网络中可以接触到大量的自然语言文本数据，比如电子邮件，然而这些爆炸式增长的数据想要通过人工阅读的方式来处理已经变的非常困难，在这种需求下，自然语言处理随之应运而生。

文本主题分类是自然语言处理中的一类基础任务，目的是为待分类文本贴上合适的标签，它具有非常广泛的应用，包括主题分类、情感分析、垃圾邮件检测等。传统文本主题分类主要是基于人工规则，主题分析等机制，及其学习技术逐渐成为实现文本主题分类任务的主流方式。

但现有的机器主题学习流程复杂，且其性能很大程度上取决于文本特征的好坏，这就需要投入大量的人力成本对文本特征进行改善，这种方式不仅成本过高，而且过多的人为参与降低的文本主题分类的准确性。

发明内容

有鉴于此，本发明提供一种主题分类方法和装置，用以在一定程度上解决现有技术中利用机器学习进行主题分类时成本过高且准确性低的问题。

依据本发明的第一方面，提供了一种主题分类方法，所述方法包括：

对第一语料数据进行分词处理，得到第二语料数据，所述第二语料数据由语料子数据构成，所述语料子数据由候选分词构成；

根据所述候选分词在所述第二语料数据的数目确定所述候选分词相对应的权重值，并将所述权重值大于权重阈值的候选分词作为所述第二语料数据的关键词；

根据所述权重值给所述第二语料数据中各语料子数据分配相对应的目标关键词，并根据所述语料子数据及相对应的目标关键词生成第三语料数据；