[发明专利]寻找相近语义汉字对的方法和装置有效

申请号：	201510503977.X	申请日：	2015-08-17
公开（公告）号：	CN105183711B	公开（公告）日：	2019-12-31
发明（设计）人：	徐戈;晁阳;关胤;吴拥民;刘德建	申请（专利权）人：	福建天晴数码有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/36
代理公司：	35219 福州市景弘专利代理事务所(普通合伙)	代理人：	林祥翔;吕元辉
地址：	350015 ***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	寻找相近语义汉字方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

为了为快速高效且具有较高准确性地获取汉字相似度提供基础数据，发明人披露了一种寻找相近语义汉字对的方法，包括如下步骤：从给定的语料库中获取一待判单词，所述待判单词含有四个汉字，依次为Z1、Z2、Z3、Z4；判断Z1与Z3是否为相同汉字，如是则输出Z2和Z4为相近语义汉字对。发明人同时还提供了实现上述寻找相近语义汉字对的方法的装置。

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种寻找相近语义汉字对的方法和装置。

背景技术

目前，在需要获取汉字的相似度时所采用的方法主要是基于根据汉字上下文进行判断的方法(如word2vec模型等)，这种做法的核心思想是以汉字为基本单位进行训练，从而得到汉字的相似度。然而，在采用基于汉字上下文的方法(如word2vec模型等)存在一定的缺陷，主要体现在当一些语言单位出现频率较低时，通常准确性有限，无法得到令人满意结果。

发明内容

为此，需要提供一种快速高效且具有较高准确性的用于帮助获取汉字相似度的汉字相似性资源的技术方案。

为实现上述目的，发明人提供了一种寻找相近语义汉字对的方法，包括如下步骤：

从给定的语料库中获取一待判单词，所述待判单词含有四个汉字，依次为Z1、Z2、Z3、Z4；

判断Z1与Z3是否为相同汉字，如是则输出Z2和Z4为相近语义汉字对。

进一步地，所述的寻找相近语义汉字对的方法中，判断Z1与Z3是否为相同汉字，如是则输出Z2和Z4为相近语义汉字对；否则：

判断是否Z1与Z2为相同汉字且Z3与Z4为相同汉字，如是则输出Z1 和Z3为相近语义汉字对。

进一步地，所述的寻找相近语义汉字对的方法中，判断是否Z1与Z2为相同汉字且Z3与Z4为相同汉字，如是则输出Z1和Z3为相近语义汉字对，否则：

根据预设的相近语义汉字对数据库比对Z1与Z3是否为相近语义汉字对，如是则输出Z2和Z4为相近语义汉字对。

进一步地，所述的寻找相近语义汉字对的方法中，将输出的作为相近语义汉字对的Z2和Z4保存至预设的相近语义汉字对数据库或新建的相近语义汉字对数据库。

进一步地，所述的寻找相近语义汉字对的方法中，步骤“从给定的语料库中获取一待判单词”具体包括：

从给定的语料库中获取一含有四个汉字的单词，并根据预设的音译单词数据库比对该含有四个汉字的单词是否为音译单词，否则将其确定为待判单词。