[发明专利]多语词典构建装置和多语词典构建方法无效
申请号: | 201110130234.4 | 申请日: | 2011-05-19 |
公开(公告)号: | CN102789461A | 公开(公告)日: | 2012-11-21 |
发明(设计)人: | 张洁;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语词 构建 装置 方法 | ||
技术领域
本发明涉及信息融合和资源重组的技术领域,具体而言,涉及一种多语词典构建装置和一种多语词典构建方法。
背景技术
包含了某一特定语种的单词词条、词性信息、词语释义以及例句的单语词典积累了丰富的单语专家知识。而包含两种及两种以上语种的互为译文的单词词条、词性信息、词语释义以及例句的多语词典积累了单语和多语专家共同合作的语言知识。
单语词典是多语词典的基础。多语词典对于沟通不同语种之间的实际应用,起到了更为重要的作用。如何利用单语词典构建出大规模高精度的多语词典,对于自然语言处理的具体应用,例如机器翻译、跨语言检索等都具有重要的作用。
目前多语词典的构建主要有两种方法,分别是基于专家知识的方法和基于统计知识的方法。
其中基于专家知识的方法,即传统的词典编撰方法,是由该领域的专家组织人力,进行多语词典汇编。该方法的缺点在于加工过程牵扯的人力多、制作周期长,词典编纂者的工作标准难以取得一致,词典义项的分合也无法采用统一的标准。
基于统计知识的方法,有的利用大规模多语的平行语料库,从中学习多语词语互为翻译对的知识,有的利用若干个双语词典,有的利用电子词典和翻译工具,直接将单语词典翻译为多语词典,再利用统计知识进行消歧,用以纠正翻译过程中可能出现的错误,构建多语词典。基于统计知识的方法的缺点在于必须拥有大规模的词典或者语料库资源,从而从中提取统计信息,另外,基于目前的消歧手段,词典义项的对齐精度低于基于专家知识构建的多语词典。
现有技术中,还存在一种自动将WordNet(一种英语词汇知识库)中的概念翻译为中文的方法。一个英文词可有多个义项,而每一个义项又可翻译为多个中文词,该方法从义项的粒度进行词汇翻译;词汇翻译最常用的方法是使用双语词典资源,其中包括网络在线词典;对同一个词的同一个义项,不同词典可能给出不同的翻译,为了得到包含更多中文同义词的义项翻译结果,需要把这些义项翻译进行合并。该方法也被用于进行词典构建,但其缺陷在于过度依赖WordNet,且生成的多语词典也需按WordNet的形式进行编排。
因此,需要一种新的构建多语词典的方式,其既能够节省词典构建工作消耗的人力物力,又能保证生成的多语词典的精确度,且适用性好,基于普通的单语、双语词典就可完成多语词典编制。
发明内容
本发明所要解决的技术问题在于,提供一种新的构建多语词典的方式,其既能够节省词典构建工作消耗的人力物力,又能保证生成的多语词典的精确度,且适用性好,基于普通的单语、双语词典就可完成多语词典编制。
有鉴于此,本发明提供了一种多语词典构建装置,可以包括:单语词典模块,从预置的单语词典中选取词语,并取得与词语对应的每个义项的释义,以及该义项所对应的词性,构造一个特征向量,所述特征向量包含词条、词性和义项;关键词提取模块,从释义中提取关键词;双语词典模块,从预置的双语词典中查询出词语所对应的所有的翻译词语,其中,双语词典的其中一种语种与单语词典的语种相同;翻译确认模块,分别计算翻译词语与词语及关键词的相似度,以在翻译词语中为词语选出对应每个义项的最终翻译词语,生成多语词典。在该技术方案中,具体地,通过将每个翻译词语与上述词语及关键词的相似度进行加权平均,选出得到值较大的翻译词语作为最终的翻译词语,通过这种方式,扩大待翻译词语和翻译词语的比对集合,从而更准确地消除翻译过程中的歧义。在上述技术方案中,优选地,双语词典模块可以根据与词语对应的每个义项的词性,过滤掉翻译词语中的词性不相同的词语。在该技术方案中,由于词性不同的翻译词语一定不适用,所以可以提前进行过滤,这样可以提高多语词典构建的效率。
在上述技术方案中,优选地,关键词提取模块可以对释义进行分词,并根据词频和词性,从分词得到的词语中提取候选关键词,以及计算候选关键词与候选翻译词语之间的相似度,以用于在候选关键词中选出关键词。通过该技术方案,具体地,可以提取出词性与上述词语相同、且词频低于一定值(过滤掉of、on等常用词语)的词语,再进行相似度计算,选出相似度高于一定值的词语作为关键词(此时,相当于同义词)。同时,选出同义词的方式已知有多种,并不限于本方案中列举的方式。
在上述技术方案中,优选地,还包括:停用词表模块,建立停用词表,并将预置的单语语料库中词频超过预定阈值的词语记录在停用词表中;双语词典模块使用停用词表,来从分词得到的词语中选出词频不超过预定阈值的词语作为候选关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110130234.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种飞机装配过程可视化建模方法
- 下一篇:背胶检测装置