[发明专利]一种基于深度学习复合模型的长文本分类方法在审

申请号：	202110971097.0	申请日：	2021-08-23
公开（公告）号：	CN113672734A	公开（公告）日：	2021-11-19
发明（设计）人：	倪显虎	申请（专利权）人：	倪显虎
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62;G06N3/04
代理公司：	广东有知猫知识产权代理有限公司 44681	代理人：	金福坤
地址：	230601 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习复合模型文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度学习复合模型的长文本分类方法，该方法包括：根据长文本的分段格式提取长文本的标题内容与正文内容；分别对标题内容及正文内容进行预处理，所述预处理包括分词、词性标注与去停用词；将预处理后的标题内容输入至经过训练的短文本分类模型，得到用于表征标题内容的类别的标签A；将预处理后的正文内容输入至经过训练的长文本分类模型；本发明通过对长文本的标题内容及正文内容分别进行提取与分类，以输出用于表征标题内容类别的标签A与若干个用于表征正文内容各段落的类别的标签B，并通过将标签B与标签A进行对比，再根据关联程度对标签B进行分级排序，能够有效的对长文本内容进行分类。

技术领域

本发明涉及一种文本分类方法，具体是一种基于深度学习复合模型的长文本分类方法。

背景技术

信息技术的发展日益迅猛，互联网技术逐渐成熟，随之产生的数据量呈爆炸性增长，而这些数据大多是半结构化和非结构化的，并且以文本形式呈现。若采用人工方式将一篇文本划分到某个分类中，虽然分类结果准确，但是耗费的人力物力极其巨大，无法快速适应互联网时代信息的极速增加以及社会发展的需求，实现十分困难。实际上，根据特定的需求，人们往往只关心文本信息的某一个领域，快速提取出指定的文本信息对互联网技术的发展具有举足轻重的作用。

我国最早关于文本分类的报告是80年代初，就职于南京工业大学的侯汉清教授首次对其进行了系统性地阐述。随后，多位学者对文本分类方法不断改进，随之我国在文本分类领域的研究取得较大进展。李晓黎、史忠值等人通过将概念推理网引入文本分类，文本分类的准确率和召回率得到较大提升。姜远、周志华等在2006年提出在分类时将词频作为影响因素，复旦大学的李荣陆在构建文本分类器时采用基于最大熵模型的分类方法，黄菁菁等采用独立语种对文本分类进行了广泛扩展。

文本分类是自然语言处理中关键且基础的任务之一，其常见的方法有传统的机器学习分类模型如朴素贝叶斯、支持向量机、逻辑回归等，以及演变至目前一系列基于深度学习的分类模型，主要包括CNN、LSTM、attention等。

但目前的文本分类模型大多仅用于处理句子级文本，并不适用于文档级长文本输入，无法处理长文本的分类问题，因此对于长文本的分类，大多是采取提取标题的方式进行的，但长文本内容中通常包含的信息较多，无法单独通过一个分类标签进行概括，且标题所能表示的信息往往无法对正文内容进行高度总结，因此，亟需一种基于深度学习复合模型的长文本分类方法。

发明内容

本发明的目的在于提供一种基于深度学习复合模型的长文本分类方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于深度学习复合模型的长文本分类方法，该方法包括：

根据长文本的分段格式提取长文本的标题内容与正文内容；

分别对标题内容及正文内容进行预处理，所述预处理包括分词、词性标注与去停用词；

将预处理后的标题内容输入至经过训练的短文本分类模型，得到用于表征标题内容的类别的标签A；

将预处理后的正文内容输入至经过训练的长文本分类模型，得到用于表征正文内容的类别的若干个标签B；

将若干个标签B分别与标签A进行对比，判断两者间的关联程度；

根据关联程度的由高至低对标签B进行分级排序。

作为本发明进一步的方案：所述预处理采用预先建立的基于字符串的词典表进行，使用jieba对文本内容进行分词，在分词过程中判断词性，并进行相应的词性标注。

作为本发明进一步的方案：在词典表内建立停用词字典，在完成词性标注后，对照停用词字典对文本中包含的停用词进行删除。