[发明专利]一种基于正则变分嵌入式的软件需求聚类方法及系统有效

申请号：	202110455004.9	申请日：	2021-04-26
公开（公告）号：	CN113159196B	公开（公告）日：	2022-09-09
发明（设计）人：	崔国荣;康雁;李媛;张晓颖;李晋源;贾雪彬	申请（专利权）人：	云南大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/253;G06F40/289;G06N3/04;G06N3/08
代理公司：	北京高沃律师事务所 11569	代理人：	王爱涛
地址：	650091***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于正则嵌入式软件需求方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于正则变分嵌入式的软件需求聚类方法，其特征在于，包括：

获取不同类别软件的软件需求数据；

对所述软件需求数据进行文本预处理，确定软件需求文本；

利用BERT预训练的句向量模型将所述软件需求文本映射到向量空间，确定句向量；

利用正则变分嵌入式聚类模型对所述句向量进行聚类，确定聚类结果；

利用正则变分嵌入式聚类模型对所述句向量进行聚类的步骤为：

所述正则变分嵌入式聚类模型对所述句向量进行Dropout正则化处理，确定正则化向量；

利用全连接层对所述正则化向量进行特征压缩；并根据所述压缩后的正则化向量，采用编码器确定嵌入特征；

利用解码器对所述嵌入特征进行解码，确定原始向量；

根据所述嵌入特征，采用K-means算法确定聚类划分结果；

根据所述嵌入特征、所述原始向量以及所述聚类划分结果确定相应的损失函数，并对所述嵌入特征、所述原始向量以及所述聚类划分结果相应的损失函数进行反向传播，确定所述聚类结果；

所述利用全连接层对所述正则化向量进行特征压缩；并根据所述压缩后的正则化向量，采用编码器确定嵌入特征，具体包括：

利用公式z＝u+exp(δ)*epsilon确定嵌入特征；

利用公式L＝KL Loss+ReconstructionLoss+α·ClusterLoss确定损失函数；

其中，u和δ为编码器将压缩后的正则化向量转换为隐藏空间的两个参数，分别为均值和方差，epsilon为一个服从正态分布的张量，epsilon～N(0，1)，L为损失函数，Reconstruction Loss为样本重构产生的损失，Reconstruction Loss＝||x-x′||²，x为输入向量集合，x'为原始向量，Cluster Loss为聚类产生的损失，p_ij为目标分布，q_ij为嵌入特征与聚类中心的相似度，KL Loss为重参数产生新样本的损失，

2.根据权利要求1所述的一种基于正则变分嵌入式的软件需求聚类方法，其特征在于，所述获取不同类别软件的软件需求数据，具体包括：

利用Scrapy技术获取Softpedia网站下Windows平台的11类软件的软件需求数据；

将每类软件需求数据以csv的格式单独存储，同时对每类软件需求数据进行标注。

3.根据权利要求1所述的一种基于正则变分嵌入式的软件需求聚类方法，其特征在于，所述对所述软件需求数据进行文本预处理，确定软件需求文本，具体包括：

利用所述正则表达式剔除所述软件需求数据中的html标签；

将剔除html标签后的软件需求数据进行缩略词以及乱码单词的校正；

对校正后的软件需求数据进行词干提取以及词形还原；

将处理后的数据在csv文件中进行存储。

4.根据权利要求1所述的一种基于正则变分嵌入式的软件需求聚类方法，其特征在于，所述利用正则变分嵌入式聚类模型对所述句向量进行聚类，确定聚类结果，之后还包括：

利用聚类指标对所述聚类结果进行评价。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载