[发明专利]一种基于深度学习的文本数据分类方法和装置有效

申请号：	202011350978.2	申请日：	2020-11-27
公开（公告）号：	CN112182230B	公开（公告）日：	2021-03-16
发明（设计）人：	李宇欣;裘实	申请（专利权）人：	北京健康有益科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36;G06N3/04;G06N3/08
代理公司：	北京格允知识产权代理有限公司 11609	代理人：	张沫
地址：	100000 北京市朝阳区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习文本数据分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于深度学习的文本数据分类方法和装置，包括：获取训练文本数据；利用所述训练文本数据对TextCNN分类模型进行训练，并使用Hyperopt工具进行模型调参，得到训练好的目标分类模型；获取待分类的文本数据；对所述待分类的文本数据进行分词，得到所述待分类的文本数据的目标分词结果；根据结合知识图谱预先构建的词向量库，确定所述目标分词结果对应的目标词向量；将所述目标词向量输入到所述目标分类模型中，得到所述待分类的文本数据的类型。本发明的方案能够提高文本数据分类的准确性。

技术领域

本发明涉及语义理解技术领域，尤其涉及一种基于深度学习的文本数据分类方法和装置。

背景技术

随着社交媒体的发展，越来越多的用户使用各类社交平台，向他人传递信息、分享自己对某个事件的观点和评价，以及发布自己感兴趣的内容等。以微博为例，微博是基于社交关系来进行信息传播的媒体平台，允许用户采用发布、分享、回复、转发等方式传播图片、视频和文本等信息。尽管分享图片和视频在社交网络中很普遍，但用户更倾向于使用文本信息来发表对某一事件或商品的看法和评价。

因此，如何基于用户的文本数据挖掘出用户对于客观事物的感受，即基于用户的文本数据挖掘出用户对于客观事物的主观意图，以更为全面地获取用户对于特定客观现实，比如事件或商品所要表达的主观信息，已逐渐成为当前自然语言处理领域的研究热点。

然而，现有的文本数据分类方法对一些文本数据分类的准确性较低，因此如何提高文本数据分类时的准确性成为目前亟需解决的技术问题。

发明内容

本发明要解决的技术问题在于现有的文本数据分类方法对一些文本数据分类的准确性较低，针对现有技术中的缺陷，提供一种基于深度学习的文本数据分类方法和装置。

为了解决上述技术问题，本发明提供了一种基于深度学习的文本数据分类方法，包括：

获取训练文本数据；

利用所述训练文本数据对TextCNN分类模型进行训练，并使用Hyperopt工具进行模型调参，得到训练好的目标分类模型；

获取待分类的文本数据；

对所述待分类的文本数据进行分词，得到所述待分类的文本数据的目标分词结果；

根据结合知识图谱预先构建的词向量库，确定所述目标分词结果对应的目标词向量；

将所述目标词向量输入到所述目标分类模型中，得到所述待分类的文本数据的类型。

在一种可能的实现方式中，所述利用所述训练文本数据对TextCNN分类模型进行训练，并使用Hyperopt工具进行模型调参，得到训练好的目标分类模型，包括：