[发明专利]翻译数据库中文档匹配方法、装置及计算机可读存储介质有效
申请号: | 201711444694.8 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108182182B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 宋安琪 | 申请(专利权)人: | 传神语联网网络科技股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F16/33;G06F16/35 |
代理公司: | 北京康盛知识产权代理有限公司 11331 | 代理人: | 李晓芳 |
地址: | 430000 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 翻译 数据库 文档 匹配 方法 装置 计算机 可读 存储 介质 | ||
本发明公开了翻译数据库中文档匹配方法、装置及计算机可读存储介质,属于翻译技术领域。其中,所述翻译数据库包括至少两种专业类别的已译文档,该方法包括:根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档。这样,可实现根据文档的专业性,来确定匹配文档,进一步提高了计算机辅助翻译的准确性和效率。
技术领域
本发明涉及翻译技术领域,特别涉及翻译数据库中文档匹配方法、装置及计算机可读存储介质。
背景技术
当前计算机辅助翻译是提高翻译一致性和效率的重要手段,它能够帮助翻译者优质、高效、轻松地完成翻译,使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量。
计算机辅助翻译的平台可选择译员来翻译待翻译文档,还可在翻译数据库种确定与待翻译文档匹配的已译文档,从而根据已译文档来辅助译员进行文档的翻译。但是,目前已译文档涉及很多行业,而每个行业都有自己的大量专业术语,而不同的译员有不同的擅长的行业或专业,目前,翻译平台还很难准确地根据文档的专业性来选择译员或者确定已译文档来辅助译员进行文档的翻译。
发明内容
本发明实施例提供了一种翻译数据库中文档匹配方法、装置及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了一种翻译数据库中文档匹配的方法,所述翻译数据库包括至少两种专业类别的已译文档,所述方法包括:
根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;
在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档。
本发明一实施例中,所述贝叶斯分类器的配置过程包括:
将所述翻译数据库中同一专业类别对应的已译文档中每个词根据词性进行分组;
根据每个词在每种专业类别对应已译文档中的出现次数,所述翻译数据库对应的专业类别的总分类数,以及每个词对应的专业类别的第一分类数,确定每个词的词语权值;
根据同一词性中每个词的词语权值,确定每种词性的词性平均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值;
根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器。
本发明一实施例中,所述根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器包括:
确定所述翻译数据库中每个词在设定的专业翻译词典中出现位置对应的词典专业类别;
根据每个词对应的每种词典专业类别之间临近关系,以及对应的所述词语权值,确定每个词的专业临近权值;
根据每个词的词频、所述词性权值,以及所述专业临近权值,确定每个词的权值词频;
根据每个词的所述权值词频,配置所述翻译数据库的贝叶斯分类器。
本发明一实施例中,所述进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于传神语联网网络科技股份有限公司,未经传神语联网网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711444694.8/2.html,转载请声明来源钻瓜专利网。