[发明专利]一种面向多要素审查标准的中文商标近似检测方法有效

申请号：	202010769071.3	申请日：	2020-08-03
公开（公告）号：	CN111882462B	公开（公告）日：	2023-05-09
发明（设计）人：	李学俊;高仕锦	申请（专利权）人：	安徽大学
主分类号：	G06Q50/18	分类号：	G06Q50/18;G06F16/38
代理公司：	安徽华人律师事务所 34163	代理人：	张璞君
地址：	230601 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向要素审查标准中文商标近似检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向多要素审查标准的中文商标近似检测方法，该方法包括以下步骤：

步骤1：获取待申请商标a的名称str_a和引证商标b的名称str_b，并计算两者之间的公共汉字个数n以及重叠参数δ；

其中，在计算所述的n时，考虑到所述的a和b中公共汉字在a或b中重复度的影响，若a和b的公共汉字中的某个汉字在a或b中重复出现，则使得该汉字在a或b中重复较多的该汉字个数加上除该汉字外的公共汉字个数为n；所述的δ采用式(1)计算：

式中，len_a和len_b分别为a和b的字符数，min(len_a,len_b)表示a和b的名称中字符数较少的字符数；

当n＝0时，为使检测顺利进行，使n＝1；

步骤2：基于单个汉字的音形码映射规则，将所述的str_a与str_b分别转为音形码序列ssc_a:{ssc₁,ssc₂,...ssc_p}和ssc_b:{ssc₁,ssc₂,...ssc_q}，其中，p、q分别表示a和b的汉字个数；

步骤3：将所述的a、b、ssc_a、ssc_b以及n作为Damerau-Levenshtein距离算法的输入，并构建D-L编辑距离矩阵D_a,b(i,j)，得到a与b之间的编辑距离d：

D-L编辑距离矩阵D_a,b(i,j)的动态过程采用式(2)计算：

式中，i、j分别表示编辑距离矩阵中的行数和列数，i,j∈N；d'表示a中的某个汉字替换为b中某个汉字的编辑距离；λ表示两个汉字之间音形相似度的阈值，取值为0.7～0.8；S_SSC表示两个汉字之间的音形相似度；

所述的S_SSC，采用式(3)计算：

S_ssc＝(ω_py*S_py+ω_zx*S_zx) (3)

式中，S_py和S_zx分别表示拼音相似度和字形相似度；ω_py和ω_zx分别为拼音相似度和字形相似度所占的权重系数，ω_py＝0.3，ω_zx＝0.7；

其中，所述的S_py，采用式(4)计算：

式中，ω₁、ω₂、ω₃和ω₄分别表示汉字音码的韵母、声母、韵母补码和声调的权重系数，ω₁＝0.4，ω₂＝0.4，ω₃＝0.1，ω₄＝0.1；和表示待比较的两个汉字的音码对应的每一位是否相等，若相等则为1，若不相等则为0；

所述的S_zx，采用式(5)计算：

式中，ω₁'和ω₇'分别表示汉字形码中的汉字结构和笔画数的权重系数，ω₁'＝0.25，ω₇'＝0.25；表示五位四角编码的每一位的权重系数和，s₇、s₇'分别表示待比较两个汉字的笔画数；和表示待比较的两个汉字的形码除笔画数外，对应的每一位是否相等，若相等则为1，否则为0；γ表示待比较的两个汉字的偏旁部首相似度系数，所述的偏旁部首相似度系数表示将待比较的两个汉字分别进行一次切分后得到的两个结构单位之间的相似程度，其取值分为四种情况：

当待比较的两个汉字的偏旁部首及其位置均相同时，γ＝1；

当待比较的两个汉字的偏旁部首相同，但位置不同时，γ＝0.8；

当待比较的两个汉字中一个汉字本身被包含在另一个汉字的偏旁部首中，或一个汉字的偏旁部首包含了另一个汉字本身时，γ＝0.9；

当不属于以上三种情况时，γ＝0；

所述的公式(2)的计算过程如下：

首先，初始化D_a,b(i,j)的第0行和第0列的值：即当min(i,j)＝0时，

其次，计算D_a,b(i,j)中其它行和列的值：和分别表示删除和增加操作，即每次删除或增加一个字符的编辑距离都为D_a,b(i-1,j-1)+d'表示当所述的S_SSC大于阈值λ时，替换一个字符的编辑距离为(1-S_SSC)，否则为1；D_a,b(i-2,j-2)+0.1表示相邻字符换位的编辑距离为0.1；每次都取增加、删除、替换、换位操作中编辑距离最小的值为当前行和列的值；

最终，取D-L编辑距离矩阵右下角的值为最终的编辑距离d；

步骤4：根据所述的编辑距离d，计算a与b的D-L相似度Sim_DL(a,b)，采用式(6)计算：

步骤5：根据所述的D-L相似度Sim_DL(a,b)与重叠参数δ，计算a与b的字面相似度Sim₁(a,b)，采用式(7)计算：

式中，为双曲正切函数，作为相似度Sim_DL(a,b)的调节函数，以确保Sim₁(a,b)的范围在[0,1]之间；

步骤6：计算a与b的含义相似度Sim₂(a,b)，过程如下：

首先，使用python的jieba库对所述的str_a和str_b进行分词，并去除停用词，分别得到a和b的词语列表W_a:{W_a1,W_a2,...,W_as}和W_b:{W_b1,W_b2,...,W_bt}，其中，s、t分别表示a和b分词后词语的个数；

然后，按前后顺序遍历所述的W_a中每个词语，采用词林词语相似度与知网词语相似度的计算方法，分别计算当前遍历到的词语与W_b中的每个词语的词林相似度与知网相似度，先取两者中较大值作为W_a中遍历到的词语与W_b中每个词语的词语相似度，再取所有的词语相似度中最大值作为W_a中遍历到的词语与W_b的局部相似度，当遍历完W_a中的所有词语，可得到一个长度为s的局部相似度列表[sim_a₁,sim_a₂,...,sim_a_s]；按照同样方法，遍历W_b中的每个词语，可得到W_b中遍历到的词语与W_a的局部相似度，最后可得到一个长度为t的局部相似度列表[sim_b₁,sim_b₂,...,sim_b_t]；

最后，根据所述的[sim_a₁,sim_a₂,...,sim_a_s]和[sim_b₁,sim_b₂,...,sim_b_t]，采用式(8)计算a和b的含义相似度Sim₂(a,b)：

式中，sim_a_r表示W_a中第r个词语与W_b的局部相似度，sim_b_m表示W_b中第m个词语与W_a的局部相似度；

步骤7：根据所述的字面相似度Sim₁(a,b)与含义相似度Sim₂(a,b)，计算a与b的综合相似度Sim(a,b)，采用式(9)计算：

式中，θ表示含义相似度的阈值，θ＝0.7；

当Sim(a,b)大于商标的侵权阈值φ＝0.8时，则a是b的近似商标申请，否则a是b的非近似商标申请。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽大学，未经安徽大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010769071.3/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q50-00 专门适用于特定经营部门的系统或方法，例如公用事业或旅游
G06Q50-02 .农业；渔业；矿业
G06Q50-04 .制造业
G06Q50-06 .电力、天然气或水供应
G06Q50-08 .建筑
G06Q50-10 .服务

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向多要素审查标准的中文商标近似检测方法有效

专利文献下载