[发明专利]一种基于学术文献的中英双语词典构建方法在审
申请号: | 202110488967.9 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113177420A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 韩文;刘嘉;柯春晓;张淇;王君培;李楠;梁晓娜;单亚林 | 申请(专利权)人: | 同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司 |
主分类号: | G06F40/47 | 分类号: | G06F40/47;G06F40/49;G06F40/44;G06F40/247;G06F40/242;G06K9/62 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 陈新胜 |
地址: | 100084 北京市海淀区清华园清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学术 文献 双语 词典 构建 方法 | ||
本发明公开了一种基于学术文献的中英双语词典构建方法,包括:收集学术文献中英文标题语料、中英文关键词语料及中文全文中的中英文注解语料,并对语料进行预处理;分别构建中英文标题翻译词库、中英文关键词翻译词库及中英文注解翻译词库;分别对中英文关键词翻译词库、中英文注解翻译词库进行优化;抽取优化后的中英文关键词翻译词库与中英文注解翻译词库中的中文词汇,并构建中文词表;对中英文标题翻译词库进行优化;将中文词表通过中英文标题翻译词库、中英文关键词翻译词库、中英文注解翻译词库进行翻译,构建中英文双语词典。本发明对中英双语词典的准确率有很大的提升,解决现有中英双语词典构建方法中同义词处理存在效果不佳的问题。
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于学术文献的中英双语词典构建方法。
背景技术
双语词典的构建是机器翻译的基础,其准确率很大程度上影响机器翻译的结果。目前用于构建双语词典的方法主要有基于平行语料、基于可比语料、基于种子词典等方法。
基于可比语料构建双语词典方法主要是基于词频统计,提取各单语语种类型下文本语料的高频词,利用每一高频词及其对应的表示结果构建双语词典。或者基于TF-IDF统计出各单语特征词构建特征词对,筛选出相似度较高的特征词对,构建双语词典。可比语料易于获取但对齐性低,基于可比语料构建双语词典不仅难度大、准确率低并且对同义词处理效果不佳。基于种子词典构建双语词典受种子词典的规模和质量影响较大且耗费大量的人力和时间。
平行语料具有高质量的对齐信息,基于平行语料构建双语词典不仅准确率高而且易于实现。但平行语料资源稀缺,且较难构建。现有的平行语料大都是根据两种不同语言的句子相似度来进行构建,语料对齐性差,基于此平行语料构建的双语词典准确率低。学术文献是经过多次人工审核的语料库,能够提供高质量的平行语料资源。基于学术文献进行平行语料的提取,基于学术文献平行语料进行双语词典的构建及优化,能够有效提升双语词典准确率且能够有效解决现有词典存在同义词处理效果不佳的问题,对机器翻译研究具有十分重要的意义。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于学术文献的中英双语词典构建方法,该方法用于解决现有中英文双语词典准确率低及存在同义词处理效果不佳的问题。
本发明的目的通过以下的技术方案来实现:
一种基于学术文献的中英双语词典构建方法,包括:
步骤A收集学术文献中英文标题语料、中英文关键词语料及中文全文中的中英文注解语料,并对语料进行预处理;
步骤B分别构建中英文标题翻译词库、中英文关键词翻译词库及中英文注解翻译词库;
步骤C分别对中英文关键词翻译词库、中英文注解翻译词库进行优化;
步骤D抽取优化后的中英文关键词翻译词库与中英文注解翻译词库中的中文词汇,并构建中文词表;
步骤E对中英文标题翻译词库进行优化;
步骤F将中文词表通过中英文标题翻译词库、中英文关键词翻译词库、中英文注解翻译词库进行翻译,构建中英文双语词典。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
本发明基于学术文献构建中英双语词典,保证了原始语料的对齐质量及准确率。构建了中英文标题翻译词库、中英文关键词翻译词库、中英文注解翻译词库,并对翻译词库进行优化,进一步提升了词典的准确率。从翻译词库中提取中文词表并对其进行三个翻译词库的翻译,将翻译结果进行整合去重构建中英双语词典,保留了双语词典的同义词。该问题的研究对机器翻译具有重要的意义。
附图说明
图1是基于学术文献的中英双语词典构建方法流程图;
图2是中英文关键词翻译词库构建及优化流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司,未经同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110488967.9/2.html,转载请声明来源钻瓜专利网。