[发明专利]一种文本分类方法、装置、电子设备及存储介质在审
申请号: | 202010641209.1 | 申请日: | 2020-07-06 |
公开(公告)号: | CN113901203A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 王永杰 | 申请(专利权)人: | 上海流利说信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 李兆轩 |
地址: | 200090 上海市杨浦区长阳路*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 电子设备 存储 介质 | ||
1.一种文本分类方法,其特征在于,包括:
确定训练集中训练样本的特征对比信息和相似度标签;其中,所述特征对比信息包括每一所述训练样本与所有训练样本的文本特征的差值;所述相似度标签包括每一所述训练样本与所有训练样本的文本等级相似度;
根据所述相似度标签构建每一训练样本对应的样本列表;其中,所述样本列表按照文本等级相似度从大到小或从小到大的顺序排列;
调整排序模型的参数并利用所述排序模型根据每一所述训练样本的特征对比信息计算每一样本分组内基准样本和分组内其他训练样本的文本特征相似度得分,以使所述训练样本的文本特征相似度得分排序序列与所述样本列表的NDCG指标大于预设值;
利用所述排序模型确定每一索引文本与待分类文本的相似度,并根据相似度排名前K位的索引文本的文本等级确定所述待分类文本的文本类别。
2.根据权利要求1所述文本分类方法,其特征在于,在确定训练集中训练样本的特征对比信息和相似度标签之前,还包括:
将所述训练集中每一训练样本的语法维度特征、词汇维度特征、连贯性特征和句法特征中任一种特征或任几种特征的组合作为所述训练集中每一训练样本的文本特征;
其中,所述语法维度特征根据所述训练样本中的语法错误统计结果确定;所述词汇维度特征根据所述训练样本中的词汇等级特征和连词使用特征确定;所述连贯性特征包括句子间编辑距离和段落间编辑距离;所述句法特征包括目标语法单元的比例;所述目标句法单元包括动名词短语和介词短语。
3.根据权利要求1所述文本分类方法,其特征在于,若所述训练集中包括N个训练样本,所述确定训练集中训练样本的特征对比信息和相似度标签包括:
根据所述训练集构建N个样本分组;其中,每一所述样本分组均包括N个所述训练样本;
将第i个样本分组的第i个训练样本作为第i个样本分组的基准样本;
计算每一所述样本分组内基准样本与所有训练样本的文本特征的差值,得到所述特征对比信息;
计算每一所述样本分组内基准样本与所有训练样本的文本等级之差的绝对值的倒数,得到所述相似度标签。
4.根据权利要求3所述文本分类方法,其特征在于,根据所述相似度标签构建每一训练样本对应的样本列表包括:
根据每一所述样本分组内基准样本与所有训练样本的文本等级相似度构建每一样本分组对应的样本列表。
5.根据权利要求4所述文本分类方法,其特征在于,所述调整排序模型的参数并利用所述排序模型根据每一所述训练样本的特征对比信息计算每一样本分组内基准样本和分组内其他训练样本的文本特征相似度得分,以使所述训练样本的文本特征相似度得分排序序列与所述样本列表的NDCG指标大于预设值,包括:
调整所述排序模型的参数;
利用所述排序模型根据每一所述基准样本的特征对比信息计算所述样本分组内所有训练样本与所述基准样本的文本特征相似度得分;
判断所述训练分组对应的文本特征相似度得分排序序列与所述样本列表的NDCG指标是否大于所述预设值;
若是,则判定所述排序模型的参数调整完毕;
若否,则进入调整所述排序模型的参数的步骤。
6.根据权利要求1所述文本分类方法,其特征在于,利用所述排序模型确定每一索引文本与待分类文本的相似度包括:
确定所述索引文本和所述待分类文本;
计算所述待分类文本与每一所述索引文本的特征比对信息;
将所述待分类文本与每一所述索引文本的特征比对信息输入所述排序模型,并根据所述排序模型的输出结果确定每一所述索引文本与待分类文本的相似度。
7.根据权利要求1所述文本分类方法,其特征在于,所述根据相似度排名前K位的索引文本的文本等级确定所述待分类文本的文本类别包括:
确定相似度排名前K位的索引文本的文本等级加权计算所述待分类文本的文本等级;其中,所述索引文本与所述待分类文本的相似度与加权计算的权重正相关;
根据文本等级与文本类别的对应关系确定所述待分类文本的文本类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海流利说信息技术有限公司,未经上海流利说信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010641209.1/1.html,转载请声明来源钻瓜专利网。