[发明专利]用于归一化文件的非数值特征的方法和装置有效
申请号: | 201410708694.4 | 申请日: | 2014-11-28 |
公开(公告)号: | CN105701118B | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 孟繁晶;杨林;李长升;徐景民;E·H·斯特恩;卓雪君;王晗 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 张亚非;于静 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 归一化 文件 数值 特征 方法 装置 | ||
1.一种用于归一化文件的非数值特征的方法,包括:
将给定文件的非数值特征的至少一对正例切分为若干单词;
通过将所述至少一对正例中的单词进行比较获得匹配的单词;以及
针对所述匹配的单词,计算其匹配该给定文件的权重,并将所述匹配的单词及其权重存储在单词库中,
其中,所述通过将所述至少一对正例中的单词进行比较获得匹配的单词包括:
计算一个正例中的每个单词与另一个正例中的各单词之间的最大匹配分数;
选择最大匹配分数大于给定阈值的单词,从而获得所述匹配的单词。
2.根据权利要求1的方法,还包括:
由所述匹配的单词构成作为正例的片段的单词序列;以及
针对所述单词序列,计算其匹配该给定文件的权重,并将所述单词序列及其权重存储在单词库中。
3.根据权利要求2的方法,还包括:
响应于接收到测试文件的非数值特征的测试实例,将该测试实例切分为若干单词和单词序列;
通过将该测试实例的单词和单词序列与单词库中的单词及单词序列进行匹配计算该测试实例匹配给定文件的分数,作为所述测试文件的非数值特征的归一化的数值特征。
4.根据权利要求1至3中任何一个的方法,其中,所述将至少一对正例切分为若干单词,是利用所述非数值特征的结构特点进行的。
5.根据权利要求1至3中任何一个的方法,其中,所述针对所述匹配的单词或单词序列,计算其匹配该给定文件的权重包括:
根据所述匹配的单词或单词序列在所述正例中的出现次数、该单词或单词序列的单词长度、以及该单词或单词序列在正例中的单词位置中的至少一个,计算其匹配该给定文件的权重,其中,所述出现次数越大、单词长度越大或单词位置越靠后,则权重越大。
6.根据权利要求5的方法,其中,所述根据所述匹配的单词或单词序列在所述正例中的出现次数、该单词或单词序列的单词长度、以及该单词或单词序列在正例中的位置中的至少一个,计算其匹配该给定文件的权重是分别使用以下公式中的至少一个进行的:
weight=position_coefficient·position,
其中,weight表示要计算的权重,count表示该单词或单词序列在所述正例中的出现次数,count_coefficient表示用于出现次数的指定系数,max_count表示所述正例中的实例数,length表示该单词或单词序列的单词长度,length_coefficient表示用于单词长度的指定系数,max_length表示其所属正例的单词长度,position表示该单词或单词序列在其正例中的相对位置,position_coefficient表示用于位置的指定系数,其中,所述count_coefficient、length_coefficient和position_coefficient的和为零。
7.根据权利要求3的方法,其中,通过将该测试实例的单词和单词序列与单词库中的单词及单词序列进行匹配计算该测试实例匹配给定文件的分数包括:
获得该测试实例的由单词和单词序列构成的不同组合方式;
将每种组合方式下的每个单词和单词序列与单词库中的单词及单词序列进行比较,获得单词库中最相似的单词或单词序列,以及其相似度和所述权重;
对于每种组合方式,根据其单词和单词序列的最相似单词或单词序列的相似度和权重,计算该每种组合方式的权重;以及
获得不同组合方式中的最大权重,作为该测试实例匹配给定文件的分数。
8.根据权利要求3中任何一个的方法,还包括:
根据该测试文件的归一化的数值特征判断该测试文件是否是所述给定文件。
9.根据权利要求8的方法,其中,所述根据该测试文件的归一化的数值特征判断该测试文件是否是所述给定文件包括:
将该测试文件的归一化的数值特征提供给分类器,以用于判断该测试文件是否是所述给定文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410708694.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:道路急弯电子预警装置
- 下一篇:一种基于地理信息的三维数据引擎系统