[发明专利]形近字获取方法、装置、电子设备及存储介质在审
申请号: | 201911220226.1 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111079379A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 蔡薇;沈彦雯;李志红;宁德金 | 申请(专利权)人: | 微梦创科网络科技(中国)有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/151;G06F40/242;G06F16/2458;G06F16/535;G06F16/583 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 徐晨影;许振新 |
地址: | 100193 北京市海淀区东北旺西路中关村*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 形近字 获取 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种形近字获取方法、装置、电子设备及存储介质,以解决相关技术中获取到的形近字不准确、不全面的问题,所述方法包括:获取目标汉字的属性信息,所述属性信息包括字形信息、拼音信息和结构信息;基于各属性对应的形近字生成策略,确定所述目标汉字的各属性信息对应的形近字子集;基于所述目标汉字的各属性信息对应的形近字子集,生成所述目标汉字的形近字集合。
技术领域
本申请涉及计算机技术领域,尤其涉及一种形近字获取方法、装置、电子设备及存储介质。
背景技术
社交平台的内容审核时对社交平台的用户所发布的文本内容进行监控,对违规内容进行及时处理,以避免扩散和传播,减小影响范围。形近字是指几个字形结构相似而含义不同的字,由于形近字之间具有相似性,通常被非法用户利用来替换原本的汉字,以形成对抗字来绕过社交平台的内容审核。
对此,在对文本内容进行审核时,需要加入大量的形近字作为测试数据来优化文本审核模型,以便能够准确识别出文本中的对抗字、词等,以提高文本内容审核的力度。
相关技术中,通常采用爬虫方式从互联网上爬取汉字的形近字,然而,这种方式获取到的测试数据并不精准、全面,导致最终的文本内容审核结果不准确。
发明内容
本申请实施例提供一种形近字获取方法、装置、电子设备及存储介质,以解决相关技术获取的形近字不精准、不全面的问题。
本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种形近字获取方法,包括:
获取目标汉字的属性信息,所述属性信息包括字形信息、拼音信息和结构信息;
基于各属性对应的形近字生成策略,确定所述目标汉字的各属性信息对应的形近字子集;
基于所述目标汉字的各属性信息对应的形近字子集,生成所述目标汉字的形近字集合。
可选地,对于属性为字形的情况,所述确定所述目标汉字的各属性对应的形近字子集,包括:
对于预先存储的汉字库中的每一汉字,获取该汉字的字形信息并基于该汉字的字形信息和所述目标汉字的字形信息,确定该汉字与所述目标汉字的字形相似度;
从所述汉字库中选取与所述目标汉字的字形相似度大于或等于第一预设阈值的汉字,得到所述目标汉字的字形信息对应的第一形近字子集。
可选地,所述字形信息包括笔画数、笔画顺序和编码;
对于所述汉字库中的每一汉字,所述基于该汉字的字形信息和所述目标汉字的字形信息,确定该汉字与所述目标汉字的字形相似度,包括:
基于该汉字与所述目标汉字的笔画数差值以及所述目标汉字的笔画数,确定该汉字与所述目标汉字的笔画数相似度;
基于该汉字的编码和所述目标汉字的编码,确定该汉字与所述目标汉字的编码相似度;
基于该汉字的笔画顺序和所述目标汉字的笔画顺序,确定该汉字与所述目标汉字的笔画顺序相似度;
对所述笔画数相似度、所述编码相似度和所述笔画顺序相似度进行加权求和,得到该汉字与所述目标汉字的字形相似度。
可选地,对于所述汉字库中的每一汉字,所述对所述笔画数相似度、所述编码相似度和所述笔画顺序相似度进行加权求和之前,还包括:
将所述目标汉字转化为图片,得到第一图片并获取所述第一图片的直方图数据;
对于所述汉字库中的每一汉字,将该汉字转化为图片,得到第二图片并获取所述第二图片的直方图数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微梦创科网络科技(中国)有限公司,未经微梦创科网络科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911220226.1/2.html,转载请声明来源钻瓜专利网。