[发明专利]一种基于音形义的中文词相似度检测算法有效
申请号: | 202011058506.X | 申请日: | 2020-09-30 |
公开(公告)号: | CN112329390B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 黄梦醒;王华敏;冯思玲;冯文龙;张雨;吴迪 | 申请(专利权)人: | 海南大学 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/284;G06F16/903 |
代理公司: | 海南汉普知识产权代理有限公司 46003 | 代理人: | 麦海玲 |
地址: | 570100 海南省*** | 国省代码: | 海南;46 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 音形义 文词 相似 检测 算法 | ||
1.一种基于音形义的中文词相似度检测算法,其特征在于,结合汉字的音形义三大特征对中文字符串进行相似度检测,包括以下步骤:
步骤S1:将输入的中文字符串s1、s2中的每个汉字拼音转换成二进制音码;
步骤S2:将输入的中文字符串s1、s2中的每个汉字按照字形转换为形码;
步骤S3:分别计算出中文字符串s1、s2的音码相似度、形码相似度、意思相似度;
步骤S4:考虑音码相似度、形码相似度、意思相似度对总体相似度的影响,最后得出中文字符串s1、s2的总体相似度;
所述步骤S2的具体步骤包括:
步骤S21:根据汉字编码规则,将汉字的结构分成横、竖、撇、捺、折,分别对所述横、竖、撇、捺、折设置相应的编码;
步骤S22:按照中文字符串s1、s2中每个汉字的所述横、竖、撇、捺、折出现的顺序,记下相应的编码,分别得到中文字符串s1、s2的笔顺码;
步骤S23:根据中文字符串s1、s2中每个汉字的笔画数获得笔画码,根据中文字符串s1、s2中每个汉字的字形结构获得结构码;
在所述步骤S3中,计算中文字符串s1、s2的音码相似度的步骤包括:
步骤S311:比较中文字符串s1、s2中的字符总长度,将字符总长度较短的字符串设为min_s,字符总长度较长的字符串设为max_s;
步骤S312:通过下式计算min_s与max_s中单个汉字a,b之间的音码相似度:
其中,h(a,b)为汉字a,b的音码汉明距离,len(a)为a的音码长度;
基于单个汉字之间的音码相似度,将min_s中的每一个汉字与max_s中的每一个汉字逐个进行音码相似度比较,基于单个汉字之间的音码相似度的比较结果,将max_s中的汉字重新交换排序;
步骤S313:计算出交换前后的汉字字符位置差,然后计算位置差的绝对值,并基于位置差的绝对值获得位置影响因素,所述位置影响因素为:
其中sum_position为各个位置差绝对值的和,len(max_s)为max_s的字符串长度;
步骤S314:通过加权编辑距离算法计算min_s与发生位置交换后的max_s的编辑距离ldsyin(max_s,min_s);
步骤S315:计算中文字符串s1、s2的音码相似度:
其中α为位置贡献参数。
2.根据权利要求1所述的一种基于音形义的中文词相似度检测算法,其特征在于,所述步骤S1的具体步骤包括:
步骤S11:将中文字符串s1、s2中每个汉字拼音的每个声母根据格雷码对照表转换为二进制数;
步骤S12:将中文字符串s1、s2中每个汉字拼音的每个韵母根据格雷码对照表转换为二进制数;
步骤S13:若中文字符串s1、s2中的每个汉字拼音存在中间韵母,则将所述中间韵母根据格雷码对照表转换为二进制数;
步骤S14:将中文字符串s1、s2中每个汉字拼音的音调采用二进制数表示。
3.根据权利要求1所述的一种基于音形义的中文词相似度检测算法,其特征在于,在所述步骤S3中,计算中文字符串s1、s2的音码相似度的步骤还包括:若中文字符串s1、s2中的字符总长度相等,则将中文字符串s1、s2中的任一设定为min_s,另一设定为max_s,并执行步骤S312,若min_s和max_s完全匹配,再通过下式计算中文字符串s1、s2的音码相似度:
其中sum_simyin为各个相对应汉字的音码相似度之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南大学,未经海南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011058506.X/1.html,转载请声明来源钻瓜专利网。