[发明专利]文本分类模型的训练方法、文本分类方法、装置和设备在审
申请号: | 202111419915.2 | 申请日: | 2021-11-26 |
公开(公告)号: | CN114281939A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 秦悦;李明亮;吴天昊;庄孺义 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/216;G06F40/289;G06K9/62 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;臧建明 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 训练 方法 装置 设备 | ||
1.一种文本分类模型的训练方法,其特征在于,包括:
获取多条浏览器的历史弹窗内的文本信息;
对每个所述文本信息进行分词处理,根据分词结果确定出每个所述文本信息对应的第一特征向量;
对所述第一特征向量进行聚类,得到至少一个文本信息组;
从每个所述文本信息组中,分别选出至少一条目标文本信息,并对每个所述目标文本信息添加类型标识,以形成至少一个文本信息模板;
根据所述至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型。
2.根据权利要求1所述的方法,其特征在于,所述对每个所述文本信息进行分词处理,根据分词结果确定出每个所述文本信息对应的第一特征向量,包括:
对每个所述文本信息进行分词处理,生成第一词袋;
确定所述第一词袋中,任一第一词汇对应的第二特征向量;
根据所述第二特征向量,确定所述每个文本信息对应的第一特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二特征向量,确定所述每个所述历史弹窗内的文本信息对应的第一特征向量,包括:
获取所述第一词袋中的所述第一词汇的总数量;
获取所述第一词袋中的每个所述第一词汇在多个所述文本信息中的出现频次,以及包含每个所述第一词汇的文本信息数量;
根据所述第一词袋中的第一词汇的总数量、每个所述第一词汇在多个所述历史弹窗内的文本信息中的出现频次,以及包含每个所述第一词汇的文本信息数量,确定每个所述第一词汇分别对应的权重;
根据所述第一词袋中的每个所述第一词汇分别对应的权重,以及每个所述第一词汇对应的第二特征向量,确定每个所述历史弹窗内的文本信息对应的第一特征向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型,包括:
对每个所述文本信息模板进行分词处理,生成第二词袋;
确定所述第二词袋中,任一第二词汇对应的第三特征向量;
根据文本相似度算法和所述第三特征向量,对初始文本分类模型进行训练,得到所述文本分类模型。
5.根据权利要求2所述的方法,其特征在于,所述确定所述第一词袋中,任一第一词汇对应的第二特征向量之后,还包括:
对所述第二特征向量进行降维处理,得到降维后的第二特征向量;
相应的,所述根据所述第二特征向量,确定所述每个所述历史弹窗内的文本信息对应的第一特征向量,包括:
根据所述降维后的第二特征向量,确定所述每个所述历史弹窗内的文本信息对应的第一特征向量。
6.一种文本分类方法,其特征在于,包括:
获取待分类文本信息,所述文本信息为浏览器的弹窗内的信息;
对所述待分类文本信息进行分词处理,生成第三词袋;
将所述第三词袋输入预先训练的文本分类模型中,得到所述待分类文本信息的类型,所述文本分类模型为通过多条浏览器的历史弹窗内的文本信息进行分词处理,根据分词结果确定出每个所述文本信息对应的第一特征向量,并对所述第一特征向量进行聚类,得到至少一个文本信息组,并从每个所述文本信息组中,分别选出至少一条目标文本信息,并对每个所述目标文本信息添加类型标识,以形成至少一个文本信息模板,并根据所述至少一个文本信息模板,对初始文本分类模型进行训练后得到。
7.根据权利要求6所述的方法,其特征在于,所述将所述第三词袋输入预先训练的文本分类模型中,得到所述待分类文本信息的类型,包括:
将所述第三词袋输入预先训练的文本分类模型中,得到所述待分类文本信息与每个所述文本信息模板之间的相似度值;
若所述待分类文本信息与第一所述文本信息模板之间的相似度值小于或者等于第一预设阈值,且所述相似度值大于所述待分类文本信息与第二所述文本信息模板之间的相似度值,则将所述第一所述文本信息模板对应的类型确定所述待分类文本信息的类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111419915.2/1.html,转载请声明来源钻瓜专利网。