[发明专利]一种文本分类方法、装置、电子设备及存储介质在审
申请号: | 202010641209.1 | 申请日: | 2020-07-06 |
公开(公告)号: | CN113901203A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 王永杰 | 申请(专利权)人: | 上海流利说信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 李兆轩 |
地址: | 200090 上海市杨浦区长阳路*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种文本分类方法,所述文本分类方法包括确定训练集中训练样本的特征对比信息和相似度标签;根据所述相似度标签构建每一训练样本对应的样本列表;调整排序模型的参数并利用所述排序模型根据每一所述训练样本的特征对比信息计算每一样本分组内基准样本和分组内其他训练样本的文本特征相似度得分,以使所述训练样本的文本特征相似度得分排序序列与所述样本列表的NDCG指标大于预设值;利用所述排序模型确定每一索引文本与待分类文本的相似度,并根据相似度排名前K位的索引文本的文本等级确定所述待分类文本的文本类别。本申请能够提高文本分类的准确率。本申请还公开了一种文本分类装置、一种存储介质及一种电子设备,具有以上有益效果。
技术领域
本申请涉及文本检测技术领域,特别涉及一种文本分类方法、一种文本分类装置、一种存储介质及一种电子设备。
背景技术
随着人工智能技术的发展,基于人工智能对文本进行分类的技术已经逐渐成熟。相对于传统的人为文本分类,基于人工智能对文本进行分类能够提高文本分类的效率。
在相关技术中,基于人工智能的文本分类模型都是直接利用文本自身的特征来进行分类,文本分类的准确率较低。
因此,如何提高文本分类的准确率是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种文本分类方法、一种文本分类装置、一种存储介质及一种电子设备,能够提高文本分类的准确率。
为解决上述技术问题,本申请提供一种文本分类方法,该文本分类方法包括:
确定训练集中训练样本的特征对比信息和相似度标签;其中,所述特征对比信息包括每一所述训练样本与所有训练样本的文本特征的差值;所述相似度标签包括每一所述训练样本与所有训练样本的文本等级相似度;
根据所述相似度标签构建每一训练样本对应的样本列表;其中,所述样本列表按照文本等级相似度从大到小或从小到大的顺序排列;
调整排序模型的参数并利用所述排序模型根据每一所述训练样本的特征对比信息计算每一样本分组内基准样本和分组内其他训练样本的文本特征相似度得分,以使所述训练样本的文本特征相似度得分排序序列与所述样本列表的NDCG指标大于预设值;
利用所述排序模型确定每一索引文本与待分类文本的相似度,并根据相似度排名前K位的索引文本的文本等级确定所述待分类文本的文本类别。
可选的,在确定训练集中训练样本的特征对比信息和相似度标签之前,还包括:
将所述训练集中每一训练样本的语法维度特征、词汇维度特征、连贯性特征和句法特征中任一种特征或任几种特征的组合作为所述训练集中每一训练样本的文本特征;
其中,所述语法维度特征根据所述训练样本中的语法错误统计结果确定;所述词汇维度特征根据所述训练样本中的词汇等级特征和连词使用特征确定;所述连贯性特征包括句子间编辑距离和段落间编辑距离;所述句法特征包括目标语法单元的比例;所述目标句法单元包括动名词短语和介词短语。
可选的,若所述训练集中包括N个训练样本,所述确定训练集中训练样本的特征对比信息和相似度标签包括:
根据所述训练集构建N个样本分组;其中,每一所述样本分组均包括N个所述训练样本;
将第i个样本分组的第i个训练样本作为第i个样本分组的基准样本;
计算每一所述样本分组内基准样本与所有训练样本的文本特征的差值,得到所述特征对比信息;
计算每一所述样本分组内基准样本与所有训练样本的文本等级之差的绝对值的倒数,得到所述相似度标签。
可选的,根据所述相似度标签构建每一训练样本对应的样本列表包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海流利说信息技术有限公司,未经上海流利说信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010641209.1/2.html,转载请声明来源钻瓜专利网。