[发明专利]一种基于音形义的中文词相似度检测算法有效

专利信息
申请号: 202011058506.X 申请日: 2020-09-30
公开(公告)号: CN112329390B 公开(公告)日: 2023-08-04
发明(设计)人: 黄梦醒;王华敏;冯思玲;冯文龙;张雨;吴迪 申请(专利权)人: 海南大学
主分类号: G06F40/126 分类号: G06F40/126;G06F40/284;G06F16/903
代理公司: 海南汉普知识产权代理有限公司 46003 代理人: 麦海玲
地址: 570100 海南省*** 国省代码: 海南;46
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 音形义 文词 相似 检测 算法
【权利要求书】:

1.一种基于音形义的中文词相似度检测算法,其特征在于,结合汉字的音形义三大特征对中文字符串进行相似度检测,包括以下步骤:

步骤S1:将输入的中文字符串s1、s2中的每个汉字拼音转换成二进制音码;

步骤S2:将输入的中文字符串s1、s2中的每个汉字按照字形转换为形码;

步骤S3:分别计算出中文字符串s1、s2的音码相似度、形码相似度、意思相似度;

步骤S4:考虑音码相似度、形码相似度、意思相似度对总体相似度的影响,最后得出中文字符串s1、s2的总体相似度;

所述步骤S2的具体步骤包括:

步骤S21:根据汉字编码规则,将汉字的结构分成横、竖、撇、捺、折,分别对所述横、竖、撇、捺、折设置相应的编码;

步骤S22:按照中文字符串s1、s2中每个汉字的所述横、竖、撇、捺、折出现的顺序,记下相应的编码,分别得到中文字符串s1、s2的笔顺码;

步骤S23:根据中文字符串s1、s2中每个汉字的笔画数获得笔画码,根据中文字符串s1、s2中每个汉字的字形结构获得结构码;

在所述步骤S3中,计算中文字符串s1、s2的音码相似度的步骤包括:

步骤S311:比较中文字符串s1、s2中的字符总长度,将字符总长度较短的字符串设为min_s,字符总长度较长的字符串设为max_s;

步骤S312:通过下式计算min_s与max_s中单个汉字a,b之间的音码相似度:

其中,h(a,b)为汉字a,b的音码汉明距离,len(a)为a的音码长度;

基于单个汉字之间的音码相似度,将min_s中的每一个汉字与max_s中的每一个汉字逐个进行音码相似度比较,基于单个汉字之间的音码相似度的比较结果,将max_s中的汉字重新交换排序;

步骤S313:计算出交换前后的汉字字符位置差,然后计算位置差的绝对值,并基于位置差的绝对值获得位置影响因素,所述位置影响因素为:

其中sum_position为各个位置差绝对值的和,len(max_s)为max_s的字符串长度;

步骤S314:通过加权编辑距离算法计算min_s与发生位置交换后的max_s的编辑距离ldsyin(max_s,min_s);

步骤S315:计算中文字符串s1、s2的音码相似度:

其中α为位置贡献参数。

2.根据权利要求1所述的一种基于音形义的中文词相似度检测算法,其特征在于,所述步骤S1的具体步骤包括:

步骤S11:将中文字符串s1、s2中每个汉字拼音的每个声母根据格雷码对照表转换为二进制数;

步骤S12:将中文字符串s1、s2中每个汉字拼音的每个韵母根据格雷码对照表转换为二进制数;

步骤S13:若中文字符串s1、s2中的每个汉字拼音存在中间韵母,则将所述中间韵母根据格雷码对照表转换为二进制数;

步骤S14:将中文字符串s1、s2中每个汉字拼音的音调采用二进制数表示。

3.根据权利要求1所述的一种基于音形义的中文词相似度检测算法,其特征在于,在所述步骤S3中,计算中文字符串s1、s2的音码相似度的步骤还包括:若中文字符串s1、s2中的字符总长度相等,则将中文字符串s1、s2中的任一设定为min_s,另一设定为max_s,并执行步骤S312,若min_s和max_s完全匹配,再通过下式计算中文字符串s1、s2的音码相似度:

其中sum_simyin为各个相对应汉字的音码相似度之和。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海南大学,未经海南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011058506.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top