[发明专利]一种面向多要素审查标准的中文商标近似检测方法有效
申请号: | 202010769071.3 | 申请日: | 2020-08-03 |
公开(公告)号: | CN111882462B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 李学俊;高仕锦 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06Q50/18 | 分类号: | G06Q50/18;G06F16/38 |
代理公司: | 安徽华人律师事务所 34163 | 代理人: | 张璞君 |
地址: | 230601 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 要素 审查 标准 中文 商标 近似 检测 方法 | ||
1.一种面向多要素审查标准的中文商标近似检测方法,该方法包括以下步骤:
步骤1:获取待申请商标a的名称stra和引证商标b的名称strb,并计算两者之间的公共汉字个数n以及重叠参数δ;
其中,在计算所述的n时,考虑到所述的a和b中公共汉字在a或b中重复度的影响,若a和b的公共汉字中的某个汉字在a或b中重复出现,则使得该汉字在a或b中重复较多的该汉字个数加上除该汉字外的公共汉字个数为n;所述的δ采用式(1)计算:
式中,lena和lenb分别为a和b的字符数,min(lena,lenb)表示a和b的名称中字符数较少的字符数;
当n=0时,为使检测顺利进行,使n=1;
步骤2:基于单个汉字的音形码映射规则,将所述的stra与strb分别转为音形码序列ssca:{ssc1,ssc2,...sscp}和sscb:{ssc1,ssc2,...sscq},其中,p、q分别表示a和b的汉字个数;
步骤3:将所述的a、b、ssca、sscb以及n作为Damerau-Levenshtein距离算法的输入,并构建D-L编辑距离矩阵Da,b(i,j),得到a与b之间的编辑距离d:
D-L编辑距离矩阵Da,b(i,j)的动态过程采用式(2)计算:
式中,i、j分别表示编辑距离矩阵中的行数和列数,i,j∈N;d'表示a中的某个汉字替换为b中某个汉字的编辑距离;λ表示两个汉字之间音形相似度的阈值,取值为0.7~0.8;SSSC表示两个汉字之间的音形相似度;
所述的SSSC,采用式(3)计算:
Sssc=(ωpy*Spy+ωzx*Szx) (3)
式中,Spy和Szx分别表示拼音相似度和字形相似度;ωpy和ωzx分别为拼音相似度和字形相似度所占的权重系数,ωpy=0.3,ωzx=0.7;
其中,所述的Spy,采用式(4)计算:
式中,ω1、ω2、ω3和ω4分别表示汉字音码的韵母、声母、韵母补码和声调的权重系数,ω1=0.4,ω2=0.4,ω3=0.1,ω4=0.1;和表示待比较的两个汉字的音码对应的每一位是否相等,若相等则为1,若不相等则为0;
所述的Szx,采用式(5)计算:
式中,ω1'和ω7'分别表示汉字形码中的汉字结构和笔画数的权重系数,ω1'=0.25,ω7'=0.25;表示五位四角编码的每一位的权重系数和,s7、s7'分别表示待比较两个汉字的笔画数;和表示待比较的两个汉字的形码除笔画数外,对应的每一位是否相等,若相等则为1,否则为0;γ表示待比较的两个汉字的偏旁部首相似度系数,所述的偏旁部首相似度系数表示将待比较的两个汉字分别进行一次切分后得到的两个结构单位之间的相似程度,其取值分为四种情况:
当待比较的两个汉字的偏旁部首及其位置均相同时,γ=1;
当待比较的两个汉字的偏旁部首相同,但位置不同时,γ=0.8;
当待比较的两个汉字中一个汉字本身被包含在另一个汉字的偏旁部首中,或一个汉字的偏旁部首包含了另一个汉字本身时,γ=0.9;
当不属于以上三种情况时,γ=0;
所述的公式(2)的计算过程如下:
首先,初始化Da,b(i,j)的第0行和第0列的值:即当min(i,j)=0时,
其次,计算Da,b(i,j)中其它行和列的值:和分别表示删除和增加操作,即每次删除或增加一个字符的编辑距离都为Da,b(i-1,j-1)+d'表示当所述的SSSC大于阈值λ时,替换一个字符的编辑距离为(1-SSSC),否则为1;Da,b(i-2,j-2)+0.1表示相邻字符换位的编辑距离为0.1;每次都取增加、删除、替换、换位操作中编辑距离最小的值为当前行和列的值;
最终,取D-L编辑距离矩阵右下角的值为最终的编辑距离d;
步骤4:根据所述的编辑距离d,计算a与b的D-L相似度SimDL(a,b),采用式(6)计算:
步骤5:根据所述的D-L相似度SimDL(a,b)与重叠参数δ,计算a与b的字面相似度Sim1(a,b),采用式(7)计算:
式中,为双曲正切函数,作为相似度SimDL(a,b)的调节函数,以确保Sim1(a,b)的范围在[0,1]之间;
步骤6:计算a与b的含义相似度Sim2(a,b),过程如下:
首先,使用python的jieba库对所述的stra和strb进行分词,并去除停用词,分别得到a和b的词语列表Wa:{Wa1,Wa2,...,Was}和Wb:{Wb1,Wb2,...,Wbt},其中,s、t分别表示a和b分词后词语的个数;
然后,按前后顺序遍历所述的Wa中每个词语,采用词林词语相似度与知网词语相似度的计算方法,分别计算当前遍历到的词语与Wb中的每个词语的词林相似度与知网相似度,先取两者中较大值作为Wa中遍历到的词语与Wb中每个词语的词语相似度,再取所有的词语相似度中最大值作为Wa中遍历到的词语与Wb的局部相似度,当遍历完Wa中的所有词语,可得到一个长度为s的局部相似度列表[sim_a1,sim_a2,...,sim_as];按照同样方法,遍历Wb中的每个词语,可得到Wb中遍历到的词语与Wa的局部相似度,最后可得到一个长度为t的局部相似度列表[sim_b1,sim_b2,...,sim_bt];
最后,根据所述的[sim_a1,sim_a2,...,sim_as]和[sim_b1,sim_b2,...,sim_bt],采用式(8)计算a和b的含义相似度Sim2(a,b):
式中,sim_ar表示Wa中第r个词语与Wb的局部相似度,sim_bm表示Wb中第m个词语与Wa的局部相似度;
步骤7:根据所述的字面相似度Sim1(a,b)与含义相似度Sim2(a,b),计算a与b的综合相似度Sim(a,b),采用式(9)计算:
式中,θ表示含义相似度的阈值,θ=0.7;
当Sim(a,b)大于商标的侵权阈值φ=0.8时,则a是b的近似商标申请,否则a是b的非近似商标申请。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010769071.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种VR设备交互用旋转式底座
- 下一篇:一种植物油生产用原料清理筛