[发明专利]文本分类模型的训练方法、文本分类方法、装置和设备在审
申请号: | 202111419915.2 | 申请日: | 2021-11-26 |
公开(公告)号: | CN114281939A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 秦悦;李明亮;吴天昊;庄孺义 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/216;G06F40/289;G06K9/62 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;臧建明 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 训练 方法 装置 设备 | ||
本申请提供一种文本分类模型的训练方法、文本分类方法、装置和设备,该方法包括:获取多条浏览器的历史弹窗内的文本信息;对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量;对第一特征向量进行聚类,得到至少一个文本信息组;从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板;根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型。通过该方法,能够解决现有技术中无法对浏览器弹窗日志进行分析的问题,基于训练得到的文本分类模型对系统进行监测和分析,能够提高系统运维效率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本分类模型的训练方法、文本分类方法、装置和设备。
背景技术
随着信息化、数字化的不断深入,运维过程的智能化程度不断提升。日志数据作为互联网技术(Internet Technology,IT)的重要输出,在监测、分析系统运行情况方面发挥着重要的作用。
现有技术中针对运维日志的分析主要是针对机器人的运行日志进行分析,缺少针对浏览器弹窗日志分析方法。浏览器弹窗日志为用户通过浏览器访问系统时,浏览器上弹出的弹窗内的文本信息。
为了更好的监测和分析系统,急需一种文本分类方法,能够对浏览器弹窗日志进行分类。
发明内容
本申请提供一种文本分类模型的训练方法、文本分类方法、装置和设备,能够解决现有技术中无法对浏览器弹窗日志进行分析的问题,基于训练得到的文本分类模型对系统进行监测和分析,能够提高系统运维效率。
第一方面,本申请提供一种文本分类模型的训练方法,包括:获取多条浏览器的历史弹窗内的文本信息;对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量;对第一特征向量进行聚类,得到至少一个文本信息组;从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板;根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型。
可选地,对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量,包括:对每个文本信息进行分词处理,生成第一词袋;确定第一词袋中,任一第一词汇对应的第二特征向量;根据第二特征向量,确定每个文本信息对应的第一特征向量。
可选地,根据第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量,包括:获取第一词袋中的第一词汇的总数量;获取第一词袋中的每个第一词汇在多个文本信息中的出现频次,以及包含每个第一词汇的文本信息数量;根据第一词袋中的第一词汇的总数量、每个第一词汇在多个历史弹窗内的文本信息中的出现频次,以及包含每个第一词汇的文本信息数量,确定每个第一词汇分别对应的权重;根据第一词袋中的每个第一词汇分别对应的权重,以及每个第一词汇对应的第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量。
可选地,根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型,包括:对每个文本信息模板进行分词处理,生成第二词袋;确定第二词袋中,任一第二词汇对应的第三特征向量;根据文本相似度算法和第三特征向量,对初始文本分类模型进行训练,得到文本分类模型。
可选地,确定第一词袋中,任一第一词汇对应的第二特征向量之后,还包括:对第二特征向量进行降维处理,得到降维后的第二特征向量;相应的,根据第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量,包括:根据降维后的第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量。
可选地,对每个历史弹窗内的文本信息进行分词处理,包括:对每个历史弹窗内的文本信息进行预处理,得到预处理后的历史弹窗内的文本信息,以去除历史弹窗内的文本信息中包括的目标数据,目标数据包括如下类型的数据中的至少一种:数字、外语和符号;对预处理后的历史弹窗内的文本信息进行分词处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111419915.2/2.html,转载请声明来源钻瓜专利网。