[发明专利]多语词典构建装置和多语词典构建方法无效
申请号: | 201110130234.4 | 申请日: | 2011-05-19 |
公开(公告)号: | CN102789461A | 公开(公告)日: | 2012-11-21 |
发明(设计)人: | 张洁;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语词 构建 装置 方法 | ||
1.一种多语词典构建装置,其特征在于,包括:
单语词典模块,从预置的单语词典中选取词语,取得与所述词语对应的每个义项的释义,以及该义项所对应的词性,构造一个特征向量,所述特征向量包含词条、词性和义项;
关键词提取模块,从所述释义中提取关键词;
双语词典模块,从预置的双语词典中查询出所述词语所对应的所有翻译词语,其中,所述双语词典的其中一种语种与所述单语词典的语种相同;
翻译确认模块,分别计算所述翻译词语与所述词语及所述关键词的相似度,以在所述翻译词语中为所述词语选出对应所述每个义项的最终翻译词语,生成所述多语词典。
2.根据权利要求1所述的多语词典构建装置,其特征在于,所述双语词典模块根据与所述词语对应的所述每个义项的词性,过滤掉所述翻译词语中的词性不相同的词语。
3.根据权利要求1或2所述的多语词典构建装置,其特征在于,所述关键词提取模块对所述释义进行分词,并根据词频和词性,从分词得到的词语中提取候选关键词,以及计算所述候选关键词与所述候选翻译词语之间的相似度,以用于在所述候选关键词中选出所述关键词。
4.根据权利要求3所述的多语词典构建装置,其特征在于,还包括:
停用词表模块,建立停用词表,并将预置的单语语料库中词频超过预定阈值的词语记录在所述停用词表中;所述双语词典模块使用所述停用词表,来从所述分词得到的词语中选出词频不超过所述预定阈值的词语作为所述候选关键词。
5.根据权利要求4所述的多语词典构建装置,其特征在于,在所述词语具有唯一义项时,所述翻译确认模块直接将所述翻译词语作为所述词语的最终翻译词语。
6.一种多语词典构建方法,其特征在于,包括:
步骤102,从预置的单语词典中选取词语,并取得与所述词语对应的每个义项的释义,以及该义项所对应的词性,构造一个特征向量,所述特征向量包含词条、词性和义项;
步骤104,从所述释义中提取关键词;
步骤106,从预置的双语词典中查询出所述词语所对应的所有翻译词语,其中,所述双语词典的其中一种语种与所述单语词典的语种相同;
步骤108,分别计算所述翻译词语与所述词语及所述关键词的相似度,以在所述翻译词语中为所述词语选出对应所述每个义项的最终翻译词语,生成所述多语词典。
7.根据权利要求6所述的多语词典构建方法,其特征在于,所述步骤106还包括:
根据与所述词语对应的所述每个义项的词性,过滤掉所述翻译词语中的词性不相同的词语。
8.根据权利要求6或7所述的多语词典构建方法,其特征在于,所述步骤104包括:
对所述释义进行分词,并根据词频和词性,从分词得到的词语中提取候选关键词;
计算所述候选关键词与所述候选翻译词语之间的相似度,以用于在所述候选关键词中选出所述关键词。
9.根据权利要求8所述的多语词典构建方法,其特征在于,在所述步骤104之前,还包括:
建立停用词表,并将预置的单语语料库中词频超过预定阈值的词语记录在所述停用词表中;
在所述步骤104中,根据所述词频提取所述候选关键词包括:
使用所述停用词表,来从所述分词得到的词语中选出词频不超过所述预定阈值的词语作为所述候选关键词。
10.根据权利要求9所述的多语词典构建方法,其特征在于,还包括:
在所述词语具有唯一义项时,直接将所述翻译词语作为所述词语的最终翻译词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110130234.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种飞机装配过程可视化建模方法
- 下一篇:背胶检测装置