[发明专利]一种基于音形义的中文词相似度检测算法有效

申请号：	202011058506.X	申请日：	2020-09-30
公开（公告）号：	CN112329390B	公开（公告）日：	2023-08-04
发明（设计）人：	黄梦醒;王华敏;冯思玲;冯文龙;张雨;吴迪	申请（专利权）人：	海南大学
主分类号：	G06F40/126	分类号：	G06F40/126;G06F40/284;G06F16/903
代理公司：	海南汉普知识产权代理有限公司 46003	代理人：	麦海玲
地址：	570100 海南省***	国省代码：	海南;46
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于音形义文词相似检测算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于音形义的中文词相似度检测算法，其特征在于，结合汉字的音形义三大特征对中文字符串进行相似度检测，包括以下步骤：

步骤S1：将输入的中文字符串s1、s2中的每个汉字拼音转换成二进制音码；

步骤S2:将输入的中文字符串s1、s2中的每个汉字按照字形转换为形码；

步骤S3:分别计算出中文字符串s1、s2的音码相似度、形码相似度、意思相似度；

步骤S4:考虑音码相似度、形码相似度、意思相似度对总体相似度的影响，最后得出中文字符串s1、s2的总体相似度；

所述步骤S2的具体步骤包括：

步骤S21:根据汉字编码规则，将汉字的结构分成横、竖、撇、捺、折，分别对所述横、竖、撇、捺、折设置相应的编码；

步骤S22:按照中文字符串s1、s2中每个汉字的所述横、竖、撇、捺、折出现的顺序，记下相应的编码，分别得到中文字符串s1、s2的笔顺码；

步骤S23:根据中文字符串s1、s2中每个汉字的笔画数获得笔画码，根据中文字符串s1、s2中每个汉字的字形结构获得结构码；

在所述步骤S3中，计算中文字符串s1、s2的音码相似度的步骤包括：

步骤S311:比较中文字符串s1、s2中的字符总长度，将字符总长度较短的字符串设为min_s，字符总长度较长的字符串设为max_s；

步骤S312:通过下式计算min_s与max_s中单个汉字a,b之间的音码相似度：

其中，h(a,b)为汉字a,b的音码汉明距离，len(a)为a的音码长度；

基于单个汉字之间的音码相似度，将min_s中的每一个汉字与max_s中的每一个汉字逐个进行音码相似度比较，基于单个汉字之间的音码相似度的比较结果，将max_s中的汉字重新交换排序；

步骤S313:计算出交换前后的汉字字符位置差，然后计算位置差的绝对值，并基于位置差的绝对值获得位置影响因素，所述位置影响因素为：

其中sum_position为各个位置差绝对值的和，len(max_s)为max_s的字符串长度；

步骤S314:通过加权编辑距离算法计算min_s与发生位置交换后的max_s的编辑距离lds_yin(max_s,min_s)；

步骤S315:计算中文字符串s1、s2的音码相似度：

其中α为位置贡献参数。

2.根据权利要求1所述的一种基于音形义的中文词相似度检测算法，其特征在于，所述步骤S1的具体步骤包括：

步骤S11：将中文字符串s1、s2中每个汉字拼音的每个声母根据格雷码对照表转换为二进制数；

步骤S12：将中文字符串s1、s2中每个汉字拼音的每个韵母根据格雷码对照表转换为二进制数；

步骤S13：若中文字符串s1、s2中的每个汉字拼音存在中间韵母，则将所述中间韵母根据格雷码对照表转换为二进制数；

步骤S14：将中文字符串s1、s2中每个汉字拼音的音调采用二进制数表示。

3.根据权利要求1所述的一种基于音形义的中文词相似度检测算法，其特征在于，在所述步骤S3中，计算中文字符串s1、s2的音码相似度的步骤还包括：若中文字符串s1、s2中的字符总长度相等，则将中文字符串s1、s2中的任一设定为min_s，另一设定为max_s，并执行步骤S312，若min_s和max_s完全匹配，再通过下式计算中文字符串s1、s2的音码相似度：

其中sum_sim_yin为各个相对应汉字的音码相似度之和。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于海南大学，未经海南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011058506.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种复合土壤调理剂及其应用
下一篇：一种虾稻共作中稻草的无公害化处理利用方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于音形义的中文词相似度检测算法有效

专利文献下载