[发明专利]文本相似度的计算方法及装置有效
申请号: | 201710223484.X | 申请日: | 2017-04-07 |
公开(公告)号: | CN107229605B | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 郑丹丹 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 计算方法 装置 | ||
1.一种文本相似度的计算方法,其特征在于,应用于计算机设备,所述计算机设备包括多个黑样本库;所述多个黑样本库为基于预设过滤策略,针对原始的黑样本库中的部分文本样本进行过滤后,基于剩余的文本样本创建得到;其中,所述多个黑样本库分别对应不同的文本过滤比例;所述方法包括:
针对新录入的文本样本进行分词处理,得到若干文本分词;
将所述多个黑样本库依次选定为目标样本库,并基于所述预设过滤策略,按照所述目标样本库对应的文本过滤比例,针对所述若干文本分词中的部分文本分词进行过滤;
将所述若干文本分词中剩余的文本分词依次选定为目标文本分词,并将所述目标文本分词与所述目标样本库中的文本分词依次进行匹配;
如果所述目标文本分词与所述目标样本库中任一文本分词匹配时,将所述目标文本分词的黑样本相似度,设置为大于等于1与所述目标样本库对应的文本过滤比例的差值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述黑样本库中的文本样本依次进行分词处理;
将预设的多个保持梯度的文本过滤比例,依次选定为目标过滤比例;
基于所述预设过滤策略,按照所述目标过滤比例,针对所述黑样本库进行分词处理得到的文本分词中的部分文本分词进行过滤;
计算所述黑样本库中剩余的文本分词的离散值,并基于计算出的所述剩余的文本分词的离散值,创建对应于所述目标过滤比例的黑样本库。
3.根据权利要求1所述的方法,其特征在于,所述多个黑样本库对应的文本过滤比例保持梯度;
所述将所述多个黑样本库依次选定为目标样本库,包括:
将所述多个黑样本库按照对应的文本过滤比例由低到高的顺序,依次选定为目标样本库。
4.根据权利要求1或2所述的方法,其特征在于,所述预设过滤策略包括以下策略中的任一:
仅丢弃权重值最高的文本分词;
仅丢弃权重值最低的文本分词;
同时丢弃权重值最高和最低的文本分词。
5.根据权利要求4所述的方法,其特征在于,所述权重值为所述文本分词对应于通用样本库的IDF值。
6.根据权利要求1所述的方法,其特征在于,所述将所述目标文本分词的黑样本相似度,设置为大于等于1与所述目标样本库对应的文本过滤比例的差值,包括:
将与所述目标样本库对应的文本过滤比例转换为目标数值;
计算1与所述目标数值的差值;
将所述目标文本分词的黑样本相似度,设置为大于等于所述差值。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述新录入的文本样本中的任一文本分词,与所述多个黑样本库中的文本分词均不匹配时,将该文本分词的黑样本相似度设置0。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述新录入的文本样本中的任一文本分词的黑样本相似度达到预设阈值时,将所述新录入的文本样本作为包含不良内容的黑样本进行实时的安全防控。
9.根据权利要求1所述的方法,其特征在于,所述文本样本为社交文本;所述黑样本库中的文本样本为包含不良内容的社交文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710223484.X/1.html,转载请声明来源钻瓜专利网。