[发明专利]一种中文仿冒域名检测方法及系统有效
申请号: | 201610809596.9 | 申请日: | 2016-09-08 |
公开(公告)号: | CN106170002B | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 王利明;李丹 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种中文仿冒域名检测方法及系统,适用于检测利用形近字构造的中文仿冒域名。主要包括:用于统计每个输入域名的长度和总笔画数的域名预处理模块;对比待检测域名与目标域名的长度和总笔画数,过滤出可能被仿冒的目标域名集合的目标域名过滤模块;将待检测域名与过滤出的目标域名对应拆分为单个汉字的域名拆分模块;将汉字转化为笔画顺序的字符串并基于字符串编辑距离计算单字相似度的单字相似度计算模块;基于单字相似度计算整体域名相似度的域名相似度计算模块;基于域名相似度判定并输出最可能被仿冒的目标域名的仿冒域名决策模块。通过以上方法及系统可有效识别利用形近字构造的中文仿冒域名,在网络安全领域具有广泛的应用前景。 | ||
搜索关键词: | 一种 中文 仿冒 域名 检测 方法 系统 | ||
【主权项】:
1.一种中文仿冒域名检测方法,包括以下步骤:1)分别统计待测域名Domaindet和目标域名集合DomainSet1中每个域名的域名长度和总笔画数;2)通过对比待测域名与目标域名集合DomainSet1中每个目标域名的域名长度和总笔画数,过滤出与待测域名长度相同且总笔画数差值百分比小于设定阈值T1的可能被仿冒的目标域名集合DomainSet2;3)去除待测域名与可能被仿冒的目标域名集合DomainSet2中的每个目标域名中的非汉字字符,然后将待测域名与可能被仿冒的目标域名集合DomainSet2中的每个目标域名分别对应拆分为单个汉字,将单个汉字按照其书写的笔画顺序转化为字符串,并基于该字符串的编辑距离计算单字相似度;所述字符串使用英文字符表示汉字的每个基本笔画类别;其中,单字相似度为c1,c2为待计算的两单字对应的笔画顺序字符串,EditDis(c1,c2)为字符串c1,c2的编辑距离,StrokeNum1,StrokeNum2为单字的笔画数;4)基于步骤3)得到的单字相似度计算对应的整体域名的相似度,判定与待测域名相似度最高且相似度值超过设定阈值T2的目标域名为被仿冒域名,输出被仿冒域名;其中,整体域名的相似度为待测域名与目标域名的长度均为n,CharSimi表示域名对应的单字字符的相似度,i为1~n的整数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610809596.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种单点登录管理系统
- 下一篇:多方视频会议系统和多方视频会议数据传输方法