[发明专利]文本分类方法、装置、设备及存储介质有效
申请号: | 202110569162.7 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113268597B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 杨海钦 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F18/214 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能,提供一种文本分类方法、装置、设备及存储介质。该方法能够获取待分类文本,计算预设库中初始文本与待分类文本的相似度,从预设库中选取目标文本,对待分类文本进行向量化处理,得到待分类向量,获取目标文本的目标向量,根据待分类向量生成第一输出向量,根据待分类向量及目标向量生成第二输出向量,从预设库中获取终端输出向量,根据待分类向量、终端输出向量、第一输出向量及第二输出向量生成语义向量,将语义向量输入至预设网络中,得到网络输出向量,对网络输出向量进行映射处理,得到分类结果。本发明能够快速并准确分析出待分类文本所属的类别。此外,本发明还涉及区块链技术,所述分类结果可存储于区块链中。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本分类方法、装置、设备及存储介质。
背景技术
目前,通过预训练语言模型能够准确地分析出文本信息所属的类别,然而,由于此类模型的模型巨大,为此,导致分类效率低下。为了提高分类效率,通常采用知识蒸馏的方法对此类模型进行压缩,然而,这种方式训练出的子模型会丢弃原本母模型的信息,从而导致分类准确率低下。
为此,如何在确保分类效率的前提下,准确的分析出文本所属的类别成了亟需解决的问题。
发明内容
鉴于以上内容,有必要提供一种文本分类方法、装置、设备及存储介质,能够在确保分类效率的前提下,准确的分析出文本所属的类别。
一方面,本发明提出一种文本分类方法,所述文本分类方法包括:
当接收到分类请求时,根据所述分类请求获取待分类文本;
计算预设库中每个初始文本与所述待分类文本的相似度,并根据所述相似度从所述预设库中选取目标文本;
对所述待分类文本进行向量化处理,得到待分类向量,并从所述预设库中获取与所述目标文本对应的初始输入向量作为目标向量,所述目标向量的维度大于所述待分类向量的维度;
根据所述待分类向量生成所述待分类文本的第一输出向量,并根据所述待分类向量及所述目标向量生成所述待分类文本的第二输出向量;
从所述预设库中获取与所述目标文本对应的输出向量作为终端输出向量,并根据所述待分类向量、所述终端输出向量、所述第一输出向量及所述第二输出向量生成所述待分类文本的语义向量;
将所述语义向量输入至预设网络中,得到网络输出向量;
对所述网络输出向量进行映射处理,得到分类结果。
根据本发明优选实施例,所述计算预设库中每个初始文本与所述待分类文本的相似度包括:
计算所述待分类文本中每个字在所述预设库中的词频,并计算所述待分类文本中每个字在所述预设库中的逆向文件频率;
将所述词频乘以所述逆向文件频率,得到所述待分类文本中每个字的向量值;
确定每个字在所述待分类文本中的位置,并根据所述位置拼接所述向量值,得到所述待分类文本的第一文本向量;
从所述预设库中获取每个初始文本的第二文本向量;
根据余弦公式计算所述第一文本向量与所述第二文本向量的距离,得到所述相似度。
根据本发明优选实施例,所述根据所述待分类向量及所述目标向量生成所述待分类文本的第二输出向量包括:
获取第一预设矩阵,并从所述预设库中获取第一初始矩阵;
将所述第一预设矩阵乘以所述待分类向量,得到第一待拼接向量;
将所述第一初始矩阵乘以所述目标向量,得到第二待拼接向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110569162.7/2.html,转载请声明来源钻瓜专利网。