[发明专利]一种软件故障智能分类方法与可读存储介质有效
申请号: | 202110811196.2 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113485738B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 王伟;梁玮;刘昌业;王双贵;彭婧 | 申请(专利权)人: | 上汽通用五菱汽车股份有限公司 |
主分类号: | G06F8/70 | 分类号: | G06F8/70;G06F18/23213 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 胡吉科 |
地址: | 545007 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 软件 故障 智能 分类 方法 可读 存储 介质 | ||
本发明提供了一种软件故障智能分类方法,包括:前置处理采用无监督聚类方法,按需产生分类;采用近义词、同义词、指代词替换的手段重新构造关键词,并采用聚类中心关键词构造新话题中心;采用优化k‑means模型,创建子类数量窗函数。本发明还提供了一种可读存储介质。本发明的有益效果是:在面对智能汽车市场新功能导致的新问题的分类中,无需预设问题类型,能有效发掘非预期的软件故障类型,能按需汽车词库分类类目,退回率下降大约12%;采用少即是多的手段重新构造关键词,能有效突出话题中心思想,聚类中心词构造新话题,解决核心话题文本关键词覆盖率低的问题;用聚类中心最近邻多词构造新话题中心,使LSI、PLSA模型相似度分析准确率约有35%的提升。
技术领域
本发明涉及分类方法,尤其涉及一种软件故障智能分类方法与可读存储介质。
背景技术
现阶段汽车用户声音分类主要有以下处理方式:
1)基于excel的人工分类;
2)互联企业基于LDA的摘要检索分类。
目前的处理,存在以下问题:
1)需要预设用户抱怨问题分类的类型,导致很多用户声音、用户抱怨被强行分类;
2)传统文本核心话题抽取文本关键词覆盖率低;
3)潜在语义分析模型在汽车用户抱怨这类10-30字超短文本分类失准的问题。
发明内容
为了解决现有技术中的问题,本发明提供了一种软件故障智能分类方法与可读存储介质。
本发明提供了一种软件故障智能分类方法,包括:前置处理采用无监督聚类方法,按需产生分类;采用近义词、同义词、指代词替换的手段重新构造关键词,并采用聚类中心关键词构造新话题中心;采用优化k-means模型,创建子类数量窗函数。
作为本发明的进一步改进,用聚类中心最近邻的多个关键词,构造新话题中心。
作为本发明的进一步改进,所述方法包括以下步骤:
S1、输入汽车用户声音超短文本;
S2、采用中文分词、去除停用词、合并近义词进行文本类数据清洗;
S3、提取超短文本关键词;
S4、超短文本向量化,对清洗过的超短文本类数据进行数字化转换,将文本分成单词、再将单词转化数字,通过数字转化,将包含多个单词的每条用户声音转化为一个多维数组,即多维向量;
S5、k-means++聚类的奇异值分析,根据步骤S3中提取到的超短文本关键词的总量确定窗口值,当子类数量大于窗口值时,提取距离聚类中心最近的多个关键语来构造新话题中心,进行奇异值分析,在排除无关内容后,加入全局文本,使用潜在语义索引在全局文本中寻找相似语句,根据汽车词库提取每组相似语句摘要作为分类类目,分类完成。
本发明还提供了一种可读存储介质,所述可读存储介质存储有执行指令,所述执行指令被处理器执行时用于实现如上述中任一项所述的方法。
本发明的有益效果是:
一、在面对智能汽车市场新功能导致的新问题的分类中,无需预设问题类型,能有效发掘非预期的软件故障类型,能按需汽车词库分类类目,退回率下降大约12%;
二、采用少即是多的手段重新构造关键词,能有效突出话题中心思想,聚类中心词构造新话题,解决核心话题文本关键词覆盖率低的问题;
三、用聚类中心最近邻多词构造新话题中心,使LSI、PLSA模型相似度分析准确率约有35%的提升。
附图说明
图1是本发明种软件故障智能分类方法的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上汽通用五菱汽车股份有限公司,未经上汽通用五菱汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110811196.2/2.html,转载请声明来源钻瓜专利网。