[发明专利]寻找相近语义汉字对的方法和装置有效
申请号: | 201510503977.X | 申请日: | 2015-08-17 |
公开(公告)号: | CN105183711B | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 徐戈;晁阳;关胤;吴拥民;刘德建 | 申请(专利权)人: | 福建天晴数码有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/36 |
代理公司: | 35219 福州市景弘专利代理事务所(普通合伙) | 代理人: | 林祥翔;吕元辉 |
地址: | 350015 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 寻找 相近 语义 汉字 方法 装置 | ||
1.一种寻找相近语义汉字对的方法,其特征在于,包括如下步骤:
从给定的语料库中获取一待判单词,所述待判单词含有四个汉字,依次为Z1、Z2、Z3、Z4;判断Z1与Z3是否为相同汉字,如是则输出Z2和Z4为相近语义汉字对;
否则:
判断是否Z1与Z2为相同汉字且Z3与Z4为相同汉字,如是则输出Z1和Z3为相近语义汉字对;否则:
根据预设的相近语义汉字对数据库比对Z1与Z3是否为相近语义汉字对,如是则输出Z2和Z4为相近语义汉字对;
将输出的作为相近语义汉字对的Z2和Z4保存至预设的相近语义汉字对数据库或新建的相近语义汉字对数据库。
2.如权利要求1所述的寻找相近语义汉字对的方法,其特征在于,步骤“从给定的语料库中获取一待判单词”具体包括:
从给定的语料库中获取一含有四个汉字的单词,并根据预设的音译单词数据库比对该含有四个汉字的单词是否为音译单词,否则将其确定为待判单词。
3.如权利要求1所述的寻找相近语义汉字对的方法,其特征在于,所述给定的语料库为经过分词或词性标注处理的语料库。
4.一种寻找相近语义汉字对的装置,其特征在于,包括待判单词获取单元、判断单元、存储单元和输出单元;
所述待判单词获取单元用于从给定的语料库中获取一待判单词,所述待判单词含有四个汉字,依次为Z1、Z2、Z3、Z4;
所述判断单元用于判断Z1与Z3是否为相同汉字,当判断单元判定Z1与Z3为相同汉字时,输出单元输出Z2和Z4为相近语义汉字对;判断单元还用于判断Z1与Z3是否为相同汉字,当判断单元判定Z1与Z3为不同汉字时判断单元判断是否Z1与Z2为相同汉字且Z3与Z4为相同汉字,当判断单元判定Z1与Z2为相同汉字且Z3与Z4为相同汉字时输出单元输出Z1和Z3为相近语义汉字对;
存储单元,用于存储一预设的相近语义汉字对数据库;
判断单元判定Z1与Z2为不同汉字或Z3与Z4为不同汉字时,判断单元根据预设的相近语义汉字对数据库比对Z1与Z3是否为相近语义汉字对,当判断单元判定Z1与Z3为相近语义汉字对时,输出单元输出Z2和Z4为相近语义汉字对;
输出单元将输出的作为相近语义汉字对的Z2和Z4保存至预设的相近语义汉字对数据库或新建的相近语义汉字对数据库。
5.如权利要求4所述的寻找相近语义汉字对的装置,其特征在于,待判单词获取单元从给定的语料库中获取一待判单词具体包括:
从给定的语料库中获取一含有四个汉字的单词,并根据预设的音译单词数据库比对该含有四个汉字的单词是否为音译单词,否则将其确定为待判单词。
6.如权利要求4所述的寻找相近语义汉字对的装置,其特征在于,所述给定的语料库为经过分词或词性标注处理的语料库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建天晴数码有限公司,未经福建天晴数码有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510503977.X/1.html,转载请声明来源钻瓜专利网。