[发明专利]一种基于文本挖掘的缺陷模式确定方法及系统在审
申请号: | 201711450639.X | 申请日: | 2017-12-27 |
公开(公告)号: | CN109976993A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 吴旭;许航 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 郭一斐;叶万东 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 缺陷描述 文本数据 缺陷模式 向量化 聚类集合 词语 聚类分析 文本挖掘 数据集 算法 词频 逆文档频率 缺陷特征 数据对应 数据依据 潜在的 聚类 | ||
1.一种基于文本挖掘的缺陷模式确定方法,其特征在于,所述方法包括:
获取多个缺陷描述文本数据;
分别提取所述多个缺陷描述文本数据中每个缺陷描述文本数据的多个特征词语;
利用词频逆文档频率TF-IDF算法对每个缺陷描述文本数据的多个特征词语进行向量化处理,获取向量化数据集;
对所述向量化数据集进行聚类计算,获取多个聚类集合;
根据所述多个聚类集合中每个聚类集合中的向量化数据对应的特征词语,确定缺陷描述文本数据对应的缺陷模式。
2.根据权利要求1所述的方法,其特征在于,所述获取多个缺陷描述文本数据,包括:
从缺陷库中获取多个缺陷报告,并分别从每个缺陷报告中提取缺陷描述部分的文本作为缺陷描述文本数据。
3.根据权利要求1所述的方法,其特征在于,在分别提取所述多个缺陷描述文本数据中每个缺陷描述文本数据的多个特征词语之前,还包括:
分别对所述多个缺陷描述文本数据进行处理,去除非文本以及与缺陷描述内容无关的文本。
4.根据权利要求1所述的方法,其特征在于,所述分别提取所述多个缺陷描述文本数据中每个缺陷描述文本数据的多个特征词语,包括:
利用分词工具将每个缺陷描述文本数据中的句子分解为多个词语;
去除所述多个词语中的干扰词语,获取多个特征词语。
5.根据权利要求1所述的方法,其特征在于,所述利用词频逆文档频率TF-IDF算法对每个缺陷描述文本数据的多个特征词语进行向量化处理,获取向量化数据集,包括:
计算每个文本数据中每个特征词语的词频逆文档频率,对每个文本数据中的每个特征词语进行向量化处理,转换为对应的词向量,确定向量化数据集。
6.根据权利要求5所述的方法,其特征在于,利用如下公式计算每个特征词语的词频逆文档频率:
TFIDFi,j=TFi,j×IDFi,
其中,TFi,j为特征词语i在对应的文本j中出现的频率;IDFi为词语i的逆文档频率;TFIDFi,j为特征词语i的词频逆文档频率;ni,j为文本j中特征词语i的个数;k为文本j中所有的特征词语;D为文档的总数;
|{j:ti∈dj}|为包含特征词语ti的文档数。
7.根据权利要求5所述的方法,其特征在于,所述对所述向量化数据集进行聚类计算,获取多个聚类集合,包括:
利用均值聚类算法K-Means将向量化数据集中的词向量划分到k个设定的聚类中,并分别计算每个词向量到对应的聚类中心的距离,并根据所述距离确定新的聚类中心不断迭代,确定最终的聚类集合。
8.一种基于文本挖掘的缺陷模式确定系统,其特征在于,所述系统包括:
缺陷数据获取单元,用于获取多个缺陷描述文本数据;
特征词语提取单元,用于分别提取所述多个缺陷描述文本数据中每个缺陷描述文本数据的多个特征词语;
向量化处理单元,用于利用词频逆文档频率TF-IDF算法对每个缺陷描述文本数据的多个特征词语进行向量化处理,获取向量化数据集;
聚类处理单元,用于对所述向量化数据集进行聚类计算,获取多个聚类集合;
缺陷模式确定单元,用于根据所述多个聚类集合中每个聚类集合中的向量化数据对应的特征词语,确定缺陷描述文本数据对应的缺陷模式。
9.根据权利要求8所述的系统,其特征在于,所述缺陷数据获取单元,获取多个缺陷描述文本数据,具体用于:
从缺陷库中获取多个缺陷报告,并分别从每个缺陷报告中提取缺陷描述部分的文本作为缺陷描述文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711450639.X/1.html,转载请声明来源钻瓜专利网。