[发明专利]基于深度学习的文本鉴别方法、装置、设备及存储介质在审
申请号: | 202110037860.2 | 申请日: | 2021-01-12 |
公开(公告)号: | CN113535946A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 李卓聪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁;张海秀 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 文本 鉴别方法 装置 设备 存储 介质 | ||
本申请实施例提供一种基于深度学习的文本鉴别方法、装置、设备及存储介质,涉及人工智能及云技术领域。方法包括:获取待鉴别目标文本,待鉴别目标文本包括文本标题与文本内容;调用预训练好的文本分类模型对待鉴别目标文本进行类别属性鉴别处理,以得到待鉴别目标文本所归属的类别属性,包括:对待鉴别目标文本进行文本标题以及文本内容的字句解析处理,以得到待鉴别目标文本的各字符;对待鉴别目标文本的每个字符进行字向量转化处理,以得到各字符的字向量;对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。可以使模型更好的理解待鉴别目标文本,提高模型分类准确率。
技术领域
本申请涉及人工智能及云技术领域,具体而言,本申请涉及一种基于深度学习的文本鉴别方法、装置、设备及存储介质。
背景技术
随着人工智能技术的研究和进步,人工智能技术已在信息处理技术领域发挥着越来越重要的作用。文本分类就属于人工智能技术应用比较广泛的一个场景,通过文本分类模型可以实现对文本进行快速分类。例如,在为用户推荐资讯的应用场景中,在将资讯推荐给用户之前,需要对资讯进行过滤后再推荐给用户,以提升用户的感知,如需要对待推荐资讯中的低俗资讯识别出来,以将高质量的资讯推荐给用户,低俗咨询的识别就属于文本分类的一种。
虽然现有技术中的文本分类方式已经存在多种,但是文本分类准确度的提升一直是有待改善的问题之一。
发明内容
本申请实施例提供了一种可以提高文本分类准确性的基于深度学习的文本鉴别方法、装置、设备及存储介质。
一方面,本申请实施例提供了一种基于深度学习的文本鉴别方法,该方法包括:
获取待鉴别目标文本,待鉴别目标文本包括文本标题与文本内容;
调用预训练好的文本分类模型对待鉴别目标文本进行类别属性鉴别处理,以得到待鉴别目标文本所归属的类别属性,包括:
对待鉴别目标文本进行文本标题以及文本内容的字句解析处理,以得到待鉴别目标文本的各字符;
对待鉴别目标文本的每个字符进行字向量转化处理,以得到各字符的字向量;
对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。
另一方面,本申请实施例提供了一种基于深度学习的文本鉴别装置,包括:
文本获取模块,用于获取待鉴别目标文本,待鉴别目标文本包括文本标题与文本内容;
文本鉴别模块,用于调用预训练好的文本分类模型对待鉴别目标文本进行类别属性鉴别处理,以得到待鉴别目标文本所归属的类别属性,其中,文本鉴别模块具体用于:
对待鉴别目标文本进行文本标题以及文本内容的字句解析处理,以得到待鉴别目标文本的各字符;
对待鉴别目标文本的每个字符进行字向量转化处理,以得到各字符的字向量;
对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量,以根据文本向量得到待鉴别目标文本所归属的类别属性。
在一种可能的实现方式中,该装置还包括:
位置向量确定模块,用于对每个字符在待鉴别目标文本中的位置进行向量转化处理,得到各字符的位置向量;
文本鉴别模块在对各字符的字向量进行融合特征提取,得到待鉴别目标文本的文本向量时,具体用于:
对于每个字符,通过拼接字符的位置向量和字符的字向量,得到第一目标向量;
对各字符的第一目标向量进行融合特征提取,得到待鉴别目标文本的文本向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110037860.2/2.html,转载请声明来源钻瓜专利网。