[发明专利]寻找相近语义汉字对的方法和装置有效
申请号: | 201510503977.X | 申请日: | 2015-08-17 |
公开(公告)号: | CN105183711B | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 徐戈;晁阳;关胤;吴拥民;刘德建 | 申请(专利权)人: | 福建天晴数码有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/36 |
代理公司: | 35219 福州市景弘专利代理事务所(普通合伙) | 代理人: | 林祥翔;吕元辉 |
地址: | 350015 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 寻找 相近 语义 汉字 方法 装置 | ||
为了为快速高效且具有较高准确性地获取汉字相似度提供基础数据,发明人披露了一种寻找相近语义汉字对的方法,包括如下步骤:从给定的语料库中获取一待判单词,所述待判单词含有四个汉字,依次为Z1、Z2、Z3、Z4;判断Z1与Z3是否为相同汉字,如是则输出Z2和Z4为相近语义汉字对。发明人同时还提供了实现上述寻找相近语义汉字对的方法的装置。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种寻找相近语义汉字对的方法和装置。
背景技术
目前,在需要获取汉字的相似度时所采用的方法主要是基于根据汉字上下文进行判断的方法(如word2vec模型等),这种做法的核心思想是以汉字为基本单位进行训练,从而得到汉字的相似度。然而,在采用基于汉字上下文的方法(如word2vec模型等)存在一定的缺陷,主要体现在当一些语言单位出现频率较低时,通常准确性有限,无法得到令人满意结果。
发明内容
为此,需要提供一种快速高效且具有较高准确性的用于帮助获取汉字相似度的汉字相似性资源的技术方案。
为实现上述目的,发明人提供了一种寻找相近语义汉字对的方法,包括如下步骤:
从给定的语料库中获取一待判单词,所述待判单词含有四个汉字,依次为Z1、Z2、Z3、Z4;
判断Z1与Z3是否为相同汉字,如是则输出Z2和Z4为相近语义汉字对。
进一步地,所述的寻找相近语义汉字对的方法中,判断Z1与Z3是否为相同汉字,如是则输出Z2和Z4为相近语义汉字对;否则:
判断是否Z1与Z2为相同汉字且Z3与Z4为相同汉字,如是则输出Z1 和Z3为相近语义汉字对。
进一步地,所述的寻找相近语义汉字对的方法中,判断是否Z1与Z2为相同汉字且Z3与Z4为相同汉字,如是则输出Z1和Z3为相近语义汉字对,否则:
根据预设的相近语义汉字对数据库比对Z1与Z3是否为相近语义汉字对,如是则输出Z2和Z4为相近语义汉字对。
进一步地,所述的寻找相近语义汉字对的方法中,将输出的作为相近语义汉字对的Z2和Z4保存至预设的相近语义汉字对数据库或新建的相近语义汉字对数据库。
进一步地,所述的寻找相近语义汉字对的方法中,步骤“从给定的语料库中获取一待判单词”具体包括:
从给定的语料库中获取一含有四个汉字的单词,并根据预设的音译单词数据库比对该含有四个汉字的单词是否为音译单词,否则将其确定为待判单词。
进一步地,所述的寻找相近语义汉字对的方法中,所述给定的语料库为经过分词或词性标注处理的语料库。
发明人同时还提供了一种寻找相近语义汉字对的装置,包括待判单词获取单元、判断单元和输出单元;
所述待判单词获取单元用于从给定的语料库中获取一待判单词,所述待判单词含有四个汉字,依次为Z1、Z2、Z3、Z4;
所述判断单元用于判断Z1与Z3是否为相同汉字,当判断单元判定Z1 与Z3为相同汉字时,输出单元输出Z2和Z4为相近语义汉字对。
进一步地,所述的寻找相近语义汉字对的装置中,判断单元还用于判断 Z1与Z3是否为相同汉字,当判断单元判定Z1与Z3为不同汉字时判断单元判断是否Z1与Z2为相同汉字且Z3与Z4为相同汉字,当判断单元判定Z1 与Z2为相同汉字且Z3与Z4为相同汉字时输出单元输出Z1和Z3为相近语义汉字对。
进一步地,所述的寻找相近语义汉字对的装置中,还包括存储单元,用于存储一预设的相近语义汉字对数据库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建天晴数码有限公司,未经福建天晴数码有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510503977.X/2.html,转载请声明来源钻瓜专利网。