[发明专利]用于处理特征库的方法、装置和非暂时性机器可读介质在审
申请号: | 201910220825.7 | 申请日: | 2019-03-22 |
公开(公告)号: | CN109992666A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 远方;汲小溪 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征库 机器可读介质 特征相似性 非暂时性 代码形式 文本分析 申请 分析 分类 | ||
1.一种用于特征库分类处理的方法,包括:
使用文本分析方式来对特征库中的至少一个特征进行特征相似性分析,所述特征库中的各个特征采用代码形式表征;以及
基于所述特征相似性分析的结果,对所述特征库中的至少一个特征进行分类。
2.如权利要求1所述的方法,其中,所述代码是所述特征的脚本代码,所述脚本代码包括入参、数据视图、velocity和函数,并且使用文本分析方式来对特征库中的至少一个特征进行特征相似性分析包括:
对所述至少一个特征中的各个特征进行分词处理,以提取出关键词多元组,所述关键词多元组包括入参、数据视图、velocity和函数中的至少两项;
基于所提取出的各个特征的关键词多元组,生成所述各个特征的字符串表示;以及
基于所生成的所述至少一个特征中的各个特征的字符串表示,确定所述各个特征之间的两两相似度。
3.如权利要求2所述的方法,其中,所述各个特征之间的两两相似度是使用最长公共子序列算法确定的。
4.如权利要求3所述的方法,其中,确定所述至少一个特征中的各个特征之间的两两相似度包括:
针对所述至少一个特征中的第一特征和第二特征,
确定所述第一特征的字符串表示和所述第二特征的字符串表示之间的最长公共子序列长度;
确定所述第一特征的字符串表示和所述第二特征的字符串表示之间的汉明距离;以及
基于所确定出的最长公共子序列长度和所确定出的汉明距离来计算所述第一特征和所述第二特征之间的相似度,
其中,基于所述特征相似性分析的结果,对所述特征库中的至少一个特征进行分类包括:
在所计算出的第一特征和第二特征的相似度高于第一阈值时,将所述第一特征和所述第二特征分类为相同类别。
5.如权利要求4所述的方法,其中,在基于所述特征相似性分析的结果,对所述特征库中的至少一个特征进行分类之前,所述方法还包括:
针对所述至少一个特征中的第一特征和第二特征,在所计算出的第一特征和第二特征的相似度高于第二阈值时,从所述特征库中去除所述第一特征和所述第二特征中的性能影响小的特征。
6.如权利要求4或5所述的方法,其中,所述第一特征和所述第二特征之间的相似度是利用下面公式进行计算的:
corr(A,B)=LCS(A,,B)/(LD(A,B)+LCS(A,B))
其中,LCS(A,B)表示所述第一特征的字符串表示A和所述第二特征的字符串表示B之间的最长公共子序列长度,LD(A,B)表示所述字符串表示A和所述字符串表示B之间的汉明距离,并且corr(A,B)表示所述字符串表示A和所述字符串表示B之间的相似度。
7.一种用于特征库分类处理的装置,包括:
特征相似性分析单元,被配置为使用文本分析方式来对特征库中的至少一个特征进行特征相似性分析,所述特征库中的各个特征采用代码形式表征;以及
特征分类单元,被配置为基于所述相似性分析结果,对所述特征库中的至少一个特征进行分类。
8.如权利要求7所述的装置,其中,所述代码是所述特征的脚本代码,所述脚本代码包括入参、数据视图、velocity和函数,
其中,所述特征相似性分析分析单元包括:
分词处理模块,被配置为对所述至少一个特征中的各个特征进行分词处理,以提取出关键词多元组,所述关键词多元组包括入参、数据视图、velocity和函数中的至少两项;
字符串表示生成模块,被配置为基于所提取出的各个特征的关键词多元组,生成所述各个特征的字符串表示;以及
相似度确定模块,被配置为基于所生成的所述至少一个特征中的各个特征的字符串表示,确定所述各个特征之间的两两相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910220825.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于问题目标特征扩展的分类方法
- 下一篇:一种文本分类方法以及装置