[发明专利]一种基于音形义的中文词相似度检测算法有效

申请号：	202011058506.X	申请日：	2020-09-30
公开（公告）号：	CN112329390B	公开（公告）日：	2023-08-04
发明（设计）人：	黄梦醒;王华敏;冯思玲;冯文龙;张雨;吴迪	申请（专利权）人：	海南大学
主分类号：	G06F40/126	分类号：	G06F40/126;G06F40/284;G06F16/903
代理公司：	海南汉普知识产权代理有限公司 46003	代理人：	麦海玲
地址：	570100 海南省***	国省代码：	海南;46
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于音形义文词相似检测算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于音形义的中文词相似度检测算法，通过综合考虑汉字的音形义三大特征去检测中文字符串的总体相似度，首先将中文字符串s1、s2的每个汉字的拼音转换成对应的音码，将中文字符串s1、s2的每个汉字转换为形码，然后分别计算中文字符串s1、s2之间的音码相似度和形码相似度，其次单独算出中文字符串义的相似度，最后结合音形义，针对应用场景，设置贡献参数算出最后中文字符串s1、s2的总体相似度。此算法可以满足较为复杂的应用场景，可应用于结构化数据项重复度的检测，特别是存在手工输入错误的情况，另外，也可应用于错别字隐藏的敏感词检测等。相比同类型的中文字符相似度检测算法，大大增强了对中文字符串相似度的检测效果。

技术领域

本发明涉及中文词相似度技术领域，更具体地，涉及一种基于音形义的中文词相似度检测算法。

背景技术

字符串相似度算法是指通过一定的方法，来计算两个不同字符串之间的相似程度。通常会用一个百分比来衡量字符串之间的相似程度。字符串相似度算法被应用于许多计算场景，在诸如数据清洗，用户输入纠错，推荐系统，剽窃检测系统，自动评分系统，以及网页搜索和DNA序列匹配这些方向都有着十分广泛的应用。目前，针对中文字符串相似度检测常采用的算法有：一是基于汉字音形的相似度检测，通过获取汉字的基础信息，如汉字的拼音、字形结构、笔画数、笔画顺序等，将这些数据按照一定的编码规则生成数学表达式，再利用特定算法通过对数学表达式处理进而获得汉字的相似度；二是基于汉字语义的相似度检测，通过将中文字符串与大型知识库中收录的词语以及描述对比，然后根据知识库义原的距离计算汉字语义相似度；但是这两类方法都存在在缺陷，前者无法识别中文字符串长短不同或者中文字序改变而意思相同的情况，后者检测的方式必须基于检测词完全正确的情况，无法检测出隐藏有错别字的词语之间的相似度。

发明内容

本发明要解决的技术问题是提供一种基于音形义的中文词相似度检测算法，在改进汉字的音码和形码基础上，将其与汉字词义相结合，充分考虑了汉字音、形、义三大特征来计算中文字符串的相似度。

为解决上述技术问题，本发明采用的技术方案是：一种基于音形义的中文词相似度检测算法，结合汉字的音形义三大特征对中文字符串进行相似度检测，包括以下步骤：

步骤S1：将输入的中文字符串s1、s2中的每个汉字拼音转换成二进制音码；

步骤S2:将输入的中文字符串s1、s2中的每个汉字按照字形转换为形码；

步骤S3:分别计算出中文字符串s1、s2的音码相似度、形码相似度、意思相似度；

步骤S4:考虑音码相似度、形码相似度、意思相似度对总体相似度的影响，最后得出中文字符串s1、s2的总体相似度；

优选的，所述步骤S1的具体步骤包括：

步骤S11：将中文字符串s1、s2中每个汉字拼音的每个声母根据格雷码对照表转换为二进制数；

步骤S12：将中文字符串s1、s2中每个汉字拼音的每个韵母根据格雷码对照表转换为二进制数；

步骤S13：若中文字符串s1、s2中的每个汉字拼音存在中间韵母，则将所述中间韵母根据格雷码对照表转换为二进制数；

步骤S14：将中文字符串s1、s2中每个汉字拼音的音调采用二进制数表示；