[发明专利]基于人工智能的文本分类方法和装置有效
申请号: | 201910782674.4 | 申请日: | 2019-08-23 |
公开(公告)号: | CN110580288B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 吕孟轩;唐亚腾;钟滨;徐进;王志平 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/253;G06F40/284;G06F40/289;G06F40/30 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 文本 分类 方法 装置 | ||
本申请实施例公开了一种基于人工智能的文本分类方法和装置,该文本分类方法包括:获取待分类文本;将待分类文本转化为第一词向量序列;将待分类文本转化为字向量序列;基于字向量序列和第一词向量序列进行文本分类,得到待分类文本的分类结果。本申请根据待分类文本的字向量序列和第一词向量序列对待分类文本进行分类,进行文本分类时即考虑了字维度的信息也考虑了词维度的信息,提高了文本分类的准确率和召回率。
技术领域
本申请涉及自然语言处理和及机器学习技术领域,具体涉及一种基于人工智能的文本分类方法和装置。
背景技术
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
针对中文文本而言,字是构成词的独立基本单元,从构成词的字中可以推断出词的语义信息。然而,目前针对中文文本分类的方法通常是将词向量或者字向量作为构成文本特征的基本单元,字向量丢失了中文词语的信息,词向量没有字维度上的信息,因此,造成了文本分类的准确率和召回率不高。
也就是说,现有技术中,文本分类的准确率和召回率不高。
发明内容
本申请实施例提供一种基于人工智能的文本分类方法和装置,能够提高文本分类的准确率和召回率。
一方面,本申请提供一种基于人工智能的文本分类方法,所述文本分类方法包括:
获取待分类文本;
将所述待分类文本转化为第一词向量序列;
将所述待分类文本转化为字向量序列;
基于所述字向量序列和所述第一词向量序列进行文本分类,得到所述待分类文本的分类结果。
其中,所述将所述待分类文本转化为第一词向量序列,包括:
对所述待分类文本进行词切割,得到第一词集合;
对所述第一词集合进行向量化处理,得到所述第一词向量序列。
其中,所述将所述待分类文本转化为字向量序列,包括:
在所述第一词集合中相邻的两个词之间插入词间隔符,得到第二词集合;
对所述第二词集合中的词进行字切割,得到字集合;
对所述字集合进行向量化处理,得到所述字向量序列。
其中,所述对所述字集合进行向量化处理,得到所述字向量序列,包括:
获取字向量矩阵;
基于所述字向量矩阵对所述字集合进行向量化处理,得到字向量序列。
其中,所述基于所述字向量序列和所述第一词向量序列进行文本分类,得到所述待分类文本的分类结果,包括:
将所述字向量序列正向输入循环神经网络模型,得到前向隐向量序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910782674.4/2.html,转载请声明来源钻瓜专利网。